論文の概要: On the Feasibility of Hijacking MLLMs' Decision Chain via One Perturbation
- arxiv url: http://arxiv.org/abs/2511.20002v1
- Date: Tue, 25 Nov 2025 07:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.327894
- Title: On the Feasibility of Hijacking MLLMs' Decision Chain via One Perturbation
- Title(参考訳): 1つの摂動によるMLLMの決定鎖のハイジャックの可能性について
- Authors: Changyue Li, Jiaying Li, Youliang Yuan, Jiaming He, Zhicong Huang, Pinjia He,
- Abstract要約: 単一の摂動は、決定連鎖全体をハイジャックすることができる。
Semantic-Aware Universal Perturbations (SAUP) は入力のセマンティクスに基づいて様々な結果をもたらす。
マルチモーダルな3つの大規模言語モデルの実験は、その脆弱性を実証している。
- 参考スコア(独自算出の注目度): 22.536817707658816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional adversarial attacks focus on manipulating a single decision of neural networks. However, real-world models often operate in a sequence of decisions, where an isolated mistake can be easily corrected, but cascading errors can lead to severe risks. This paper reveals a novel threat: a single perturbation can hijack the whole decision chain. We demonstrate the feasibility of manipulating a model's outputs toward multiple, predefined outcomes, such as simultaneously misclassifying "non-motorized lane" signs as "motorized lane" and "pedestrian" as "plastic bag". To expose this threat, we introduce Semantic-Aware Universal Perturbations (SAUPs), which induce varied outcomes based on the semantics of the inputs. We overcome optimization challenges by developing an effective algorithm, which searches for perturbations in normalized space with a semantic separation strategy. To evaluate the practical threat of SAUPs, we present RIST, a new real-world image dataset with fine-grained semantic annotations. Extensive experiments on three multimodal large language models demonstrate their vulnerability, achieving a 70% attack success rate when controlling five distinct targets using just an adversarial frame.
- Abstract(参考訳): 従来の敵攻撃は、ニューラルネットワークの単一決定を操作することに重点を置いている。
しかし、現実のモデルは、しばしば一連の意思決定で動作し、孤立したミスを容易に修正できるが、カスケードエラーは深刻なリスクを引き起こす。
この論文は、新たな脅威を明らかにしている。単一の摂動は、決定連鎖全体をハイジャックすることができる。
本研究では,「非運動車線」標識を「運動車線」と「歩行者」標識を「プラスチック袋」と誤分類するなど,複数の事前定義された結果に対するモデルの出力操作の実現可能性を示す。
この脅威を明らかにするために,セマンティック・アウェア・ユニバーサル・パータベーション(SAUP)を導入し,入力のセマンティクスに基づいて様々な結果をもたらす。
我々は,正規化空間における摂動を意味分離戦略で探索する効果的なアルゴリズムを開発することで,最適化の課題を克服する。
本稿では,SAUPの実用的脅威を評価するために,詳細なセマンティックアノテーションを付加した実世界の画像データセットであるRISTを提案する。
3つのマルチモーダルな大規模言語モデルに対する大規模な実験は、その脆弱性を実証し、敵のフレームだけで5つの異なるターゲットを制御する場合、70%の攻撃成功率を達成する。
関連論文リスト
- Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。
言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。
セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文 参考訳(メタデータ) (2025-10-27T04:02:52Z) - LLM Unlearning with LLM Beliefs [39.271253385135644]
巨大なコーパスで訓練された大きな言語モデルは、本質的に機密または有害な内容を記憶し、後に出力に再浮上する可能性がある。
本稿では、スケズ効果をモデル自身の高信頼世代に明示的に関連付けるブートストラップフレームワークを提案する。
目標応答とモデル信念の両方を共同で抑制することにより、BS-T(トークン)は高い確率トークンを減らし、BS-S(シーケンス)は全高信頼世代を除去する。
論文 参考訳(メタデータ) (2025-10-22T09:44:36Z) - TRAP: Targeted Redirecting of Agentic Preferences [3.6293956720749425]
本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T14:57:16Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Multi-objective Evolutionary Search of Variable-length Composite
Semantic Perturbations [1.9100854225243937]
可変長複合意味摂動(MES-VCSP)の多目的進化探索法を提案する。
MES-VCSPは、高い攻撃成功率、より自然性、より少ない時間コストで敵の例を得ることができる。
論文 参考訳(メタデータ) (2023-07-13T04:08:16Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。