Fugu-MT 論文翻訳(概要): SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack

論文の概要: SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack

arxiv url: http://arxiv.org/abs/2410.02240v3
Date: Wed, 23 Oct 2024 14:53:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 07:46:05.675328
Title: SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack
Title（参考訳）: SCA: 非常に効率的なセマンティック一貫性のない非制限の敵攻撃
Authors: Zihao Pan, Weibin Wu, Yuhang Cao, Zibin Zheng,
Abstract要約: 我々はセマンティック・コンスタント・アンリミスタント・アンリミテッド・アタック(SCA)と呼ばれる新しいフレームワークを提案する。 SCAは、編集しやすいノイズマップを抽出するために反転法を採用し、意味的なガイダンスを提供するためにMLLM(Multimodal Large Language Model)を使用している。我々のフレームワークは、最小限の識別可能な意味変化を示す敵例の効率的な生成を可能にする。
参考スコア（独自算出の注目度）: 29.744970741737376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural network based systems deployed in sensitive environments are vulnerable to adversarial attacks. Unrestricted adversarial attacks typically manipulate the semantic content of an image (e.g., color or texture) to create adversarial examples that are both effective and photorealistic. Recent works have utilized the diffusion inversion process to map images into a latent space, where high-level semantics are manipulated by introducing perturbations. However, they often results in substantial semantic distortions in the denoised output and suffers from low efficiency. In this study, we propose a novel framework called Semantic-Consistent Unrestricted Adversarial Attacks (SCA), which employs an inversion method to extract edit-friendly noise maps and utilizes Multimodal Large Language Model (MLLM) to provide semantic guidance throughout the process. Under the condition of rich semantic information provided by MLLM, we perform the DDPM denoising process of each step using a series of edit-friendly noise maps, and leverage DPM Solver++ to accelerate this process, enabling efficient sampling with semantic consistency. Compared to existing methods, our framework enables the efficient generation of adversarial examples that exhibit minimal discernible semantic changes. Consequently, we for the first time introduce Semantic-Consistent Adversarial Examples (SCAE). Extensive experiments and visualizations have demonstrated the high efficiency of SCA, particularly in being on average 12 times faster than the state-of-the-art attacks. Our research can further draw attention to the security of multimedia information.
Abstract（参考訳）: センシティブな環境にデプロイされたディープニューラルネットワークベースのシステムは、敵の攻撃に対して脆弱である。制限のない敵攻撃は、通常、画像(例えば色やテクスチャ)のセマンティックな内容を操作して、効果的かつフォトリアリスティックな敵の例を作成する。近年の研究では、拡散反転法を用いて画像を潜時空間にマッピングし、摂動を導入して高レベルの意味論を操作している。しかし、それらはしばしば、復調された出力に実質的な意味的歪みをもたらし、低効率に悩まされる。本研究では、編集しやすいノイズマップを抽出する逆法と、その過程全体を通して意味的なガイダンスを提供するためのマルチモーダル大言語モデル(MLLM)を用いて、セマンティック・一貫性のない非制限逆攻撃(SCA)と呼ばれる新しいフレームワークを提案する。 MLLMが提供するリッチセマンティック情報の条件下では、一連の編集フレンドリなノイズマップを用いて各ステップのDDPM復調処理を行い、DPM Solver++を利用してこの処理を高速化し、セマンティック一貫性のある効率的なサンプリングを可能にする。既存の手法と比較して,本フレームワークは,最小限の識別可能な意味変化を示す敵例の効率的な生成を可能にする。その結果,セマンティック・コンスタント・アドバイサル・ケース(SCAE)を初めて紹介した。大規模な実験と可視化は、特に最先端の攻撃の12倍の速度でSCAの高効率性を実証している。我々の研究はマルチメディア情報のセキュリティにさらに注意を向けることができる。

関連論文リスト

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。 MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文参考訳（メタデータ） (2026-03-05T06:01:26Z)
The Illusion of Forgetting: Attack Unlearned Diffusion via Initial Latent Variable Optimization [51.835894707552946]
非学習型防衛は拡散モデル(DM)からNot-Safe-For-Work概念を浄化すると主張している本研究では,未学習が言語記号と基礎知識のマッピングを部分的に破壊し,休眠記憶として残り続けることを示す。 IVOは、壊れたマッピングを再構築することで、これらの休眠記憶を再活性化する簡潔で強力な攻撃フレームワークである。
論文参考訳（メタデータ） (2026-01-30T02:39:51Z)
Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文参考訳（メタデータ） (2025-12-09T20:44:33Z)
Adaptive Guidance Semantically Enhanced via Multimodal LLM for Edge-Cloud Object Detection [9.198326035948613]
本稿では,適応誘導に基づくエッジクラウド協調オブジェクト検出手法を提案する。レイテンシを79%以上削減し、低照度で非常に隠蔽されたシーンでは計算コストを70%削減できる。
論文参考訳（メタデータ） (2025-09-24T08:25:37Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
A Knowledge-guided Adversarial Defense for Resisting Malicious Visual Manipulation [93.28532038721816]
視覚的操作の悪意ある応用は、多くの分野でユーザーのセキュリティと評判に深刻な脅威をもたらしている。本稿では,悪質な操作モデルを積極的に強制し,意味論的に混乱したサンプルを出力するために,知識誘導型敵防衛(KGAD)を提案する。
論文参考訳（メタデータ） (2025-04-11T10:18:13Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [9.11767497956649]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文参考訳（メタデータ） (2024-11-25T15:40:47Z)
Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。マルチステップ誤り最小化(MEM)を提案する。
論文参考訳（メタデータ） (2024-07-23T09:00:52Z)
Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。 TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文参考訳（メタデータ） (2024-03-15T12:48:44Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
Semantic Adversarial Attacks via Diffusion Models [30.169827029761702]
セマンティック敵攻撃は、色、コンテキスト、特徴などのクリーンな例のセマンティック属性の変更に焦点を当てる。本稿では,近年の拡散モデルを利用して,セマンティック・アタックを迅速に生成するフレームワークを提案する。提案手法は,FIDが36.61である複数環境での攻撃成功率を約100%達成する。
論文参考訳（メタデータ） (2023-09-14T02:57:48Z)
DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-09T04:40:01Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Multi-objective Evolutionary Search of Variable-length Composite Semantic Perturbations [1.9100854225243937]
可変長複合意味摂動(MES-VCSP)の多目的進化探索法を提案する。 MES-VCSPは、高い攻撃成功率、より自然性、より少ない時間コストで敵の例を得ることができる。
論文参考訳（メタデータ） (2023-07-13T04:08:16Z)
Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文参考訳（メタデータ） (2023-02-16T15:21:46Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文参考訳（メタデータ） (2021-10-28T17:31:51Z)
Reinforcement Learning-powered Semantic Communication via Semantic Similarity [13.569045590522316]
我々は,ビットレベルの精度を厳格に確保する代わりに,セマンティック情報を保存するための新しいセマンティックコミュニケーション機構を導入する。一般的に使用されるビットレベルのメトリクスは、重要な意味や構造を捉えるのに脆弱であることを示す。ユーザ定義のセマンティック測定を同時に最適化できる強化学習(RL)ベースのソリューションを提案しました。
論文参考訳（メタデータ） (2021-08-27T05:21:05Z)
A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文参考訳（メタデータ） (2020-10-15T16:07:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。