論文の概要: From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses
- arxiv url: http://arxiv.org/abs/2510.07968v1
- Date: Thu, 09 Oct 2025 09:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.973294
- Title: From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses
- Title(参考訳): ディフェンダーからデビルへ : LLM防衛による意図しないリスク相互作用
- Authors: Xiangtao Meng, Tianshuo Cong, Li Wang, Wenyu Chen, Zheng Li, Shanqing Guo, Xiaoyun Wang,
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションで顕著なパフォーマンスを示しているが、センシティブなドメインへのデプロイは重大な懸念を引き起こす。
安全,公正,プライバシの複雑な相互作用に着目し,LLMの防御による意図せぬ相互作用を調査する第一歩を踏み出した。
リスク1つを目標とする防衛の展開が他者に影響を与えるかどうかを評価するための総合的な評価フレームワークであるCrossRiskEvalを提案する。
- 参考スコア(独自算出の注目度): 18.096213847353965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable performance across various applications, but their deployment in sensitive domains raises significant concerns. To mitigate these risks, numerous defense strategies have been proposed. However, most existing studies assess these defenses in isolation, overlooking their broader impacts across other risk dimensions. In this work, we take the first step in investigating unintended interactions caused by defenses in LLMs, focusing on the complex interplay between safety, fairness, and privacy. Specifically, we propose CrossRiskEval, a comprehensive evaluation framework to assess whether deploying a defense targeting one risk inadvertently affects others. Through extensive empirical studies on 14 defense-deployed LLMs, covering 12 distinct defense strategies, we reveal several alarming side effects: 1) safety defenses may suppress direct responses to sensitive queries related to bias or privacy, yet still amplify indirect privacy leakage or biased outputs; 2) fairness defenses increase the risk of misuse and privacy leakage; 3) privacy defenses often impair safety and exacerbate bias. We further conduct a fine-grained neuron-level analysis to uncover the underlying mechanisms of these phenomena. Our analysis reveals the existence of conflict-entangled neurons in LLMs that exhibit opposing sensitivities across multiple risk dimensions. Further trend consistency analysis at both task and neuron levels confirms that these neurons play a key role in mediating the emergence of unintended behaviors following defense deployment. We call for a paradigm shift in LLM risk evaluation, toward holistic, interaction-aware assessment of defense strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションで顕著なパフォーマンスを示しているが、センシティブなドメインへのデプロイは重大な懸念を引き起こす。
これらのリスクを軽減するため、多くの防衛戦略が提案されている。
しかし、既存の研究の多くは、これらの防御を独立した形で評価し、他のリスク次元にまたがる幅広い影響を見越している。
本研究では,LLMにおける防衛行為による意図せぬインタラクションを調査する第一歩として,安全性,公正性,プライバシの複雑な相互作用に着目した。
具体的には、あるリスクをターゲットにした防衛システムを展開することが、他人に不注意に影響を及ぼすかどうかを評価するための総合的な評価フレームワークであるCrossRiskEvalを提案する。
12個の防衛戦略を網羅した14個の防衛配備LDMに関する広範な実証研究を通じて、いくつかの警告的副作用を明らかにした。
1) 安全防衛は,バイアス又はプライバシに関するセンシティブな問い合わせに対する直接的な応答を抑制することができるが,なおかつ,間接的なプライバシ漏洩又はバイアスアウトプットを増幅することができる。
2 公正防衛は、誤用及びプライバシー漏洩のリスクを増大させる。
3)プライバシー保護は安全を損なうことが多く、バイアスが悪化する。
さらに、これらの現象の基礎となるメカニズムを明らかにするために、きめ細かいニューロンレベルの分析を行う。
本研究は,複数のリスク次元にまたがって対立する感度を示すLLMにおいて,対立結合ニューロンの存在を明らかにした。
タスクレベルとニューロンレベルでのさらなる傾向整合性解析は、これらのニューロンが防衛展開後の意図しない行動の出現を媒介する重要な役割を担っていることを証明している。
我々は LLM リスク評価におけるパラダイムシフトを, 防衛戦略の総合的, 相互認識的評価に向けて求めている。
関連論文リスト
- The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration [72.33801123508145]
大規模言語モデル(LLM)はマルチエージェントシステムに不可欠なものである。
プライバシーリスクは、暗記、直接推論、シングルターン評価を超えて現れる。
特に、相互作用によって構成される一見無害な反応は、敵が機密情報の回復を累積的に行うことができる。
論文 参考訳(メタデータ) (2025-09-16T16:57:25Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Topic-FlipRAG: Topic-Orientated Adversarial Opinion Manipulation Attacks to Retrieval-Augmented Generation Models [22.296368955665475]
本稿では,関連するクエリに対する意見に影響を及ぼすために,敵の摂動を利用する2段階の操作攻撃パイプラインを提案する。
実験により、提案した攻撃は特定のトピックに対するモデルの出力の意見を効果的にシフトさせることが示されている。
論文 参考訳(メタデータ) (2025-02-03T14:21:42Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - SoK: Unintended Interactions among Machine Learning Defenses and Risks [14.021381432040057]
過度に適合し、意図しない相互作用を弱体化させるという予想に基づく枠組みを提案する。
2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。
論文 参考訳(メタデータ) (2023-12-07T18:57:36Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。