論文の概要: Conflicts Make Large Reasoning Models Vulnerable to Attacks
- arxiv url: http://arxiv.org/abs/2604.09750v1
- Date: Fri, 10 Apr 2026 11:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.655911
- Title: Conflicts Make Large Reasoning Models Vulnerable to Attacks
- Title(参考訳): 大規模な推論モデルで攻撃を回避できる衝突
- Authors: Honghao Liu, Chengjin Xu, Xuhui Jiang, Cehao Yang, Shengming Yin, Zhengwu Ma, Lionel Ni, Jian Guo,
- Abstract要約: 本研究は, 2つのカテゴリーの対立に直面すると, LRMが有害なクエリにどう反応するかを検討する。
内部紛争は互いに対立し合い、ジレンマは相互に矛盾する選択を課す。
5つのベンチマークで1,300以上のプロンプトを用いて、3つの代表的なLEMを評価した。
- 参考スコア(独自算出の注目度): 17.460309581795595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have achieved remarkable performance across diverse domains, yet their decision-making under conflicting objectives remains insufficiently understood. This work investigates how LRMs respond to harmful queries when confronted with two categories of conflicts: internal conflicts that pit alignment values against each other and dilemmas, which impose mutually contradictory choices, including sacrificial, duress, agent-centered, and social forms. Using over 1,300 prompts across five benchmarks, we evaluate three representative LRMs - Llama-3.1-Nemotron-8B, QwQ-32B, and DeepSeek R1 - and find that conflicts significantly increase attack success rates, even under single-round non-narrative queries without sophisticated auto-attack techniques. Our findings reveal through layerwise and neuron-level analyses that safety-related and functional representations shift and overlap under conflict, interfering with safety-aligned behavior. This study highlights the need for deeper alignment strategies to ensure the robustness and trustworthiness of next-generation reasoning models. Our code is available at https://github.com/DataArcTech/ConflictHarm. Warning: This paper contains inappropriate, offensive and harmful content.
- Abstract(参考訳): 大規模推論モデル(LRM)は、様々な領域で顕著なパフォーマンスを達成しているが、相反する目的の下での意思決定は、まだ十分に理解されていない。
本研究は, LRMが有害な問合せにどう反応するかを, 2つの対立に直面する場合, 相互に矛盾する選択を課す内的紛争, 犠牲, 抵抗, エージェント中心, 社会的形態の2つのカテゴリーに比較検討する。
5つのベンチマークで1300以上のプロンプトを使用して、Llama-3.1-Nemotron-8B、QwQ-32B、DeepSeek R1という3つの代表的なLEMを評価し、高度なオートアタック技術のない単一ラウンドのノンナラティブクエリであっても、競合が攻撃成功率を著しく向上させることを発見した。
本研究は,安全関連および機能的表現が対立の下で変化し,重なり合い,安全に整合した行動に干渉することを明らかにする。
本研究は,次世代推論モデルの堅牢性と信頼性を確保するために,より深いアライメント戦略の必要性を強調した。
私たちのコードはhttps://github.com/DataArcTech/ConflictHarm.orgから入手可能です。
警告: この論文は不適切で不快で有害な内容を含んでいる。
関連論文リスト
- Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning [78.86309644343295]
長い連鎖推論におけるマルチモーダルな大言語モデル(MLLM)は、異なる知識源が矛盾する信号を提供するときにしばしば失敗する。
我々は、これらの失敗を知識の衝突という統一概念の下で形式化し、入力レベルの客観的衝突とプロセスレベルの効果的な衝突を区別する。
本研究は,知識衝突下でのマルチモーダル推論のメカニズムを考察し,長CoT障害の診断と制御を可能にする。
論文 参考訳(メタデータ) (2026-02-16T07:10:44Z) - Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments [4.547649832854566]
大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究は,アライメント保護にもかかわらず有害な拘束行動を引き起こす,より大規模なモデルで,より小さなモデルを体系的に緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-16T15:16:33Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベル・ビジョン・知識衝突の問題について考察する。
MLLMにおけるこれらの競合をシミュレートし、評価するために設計された入力を生成するために、人間のループ品質制御を付加した自動フレームワークを導入する。
このフレームワークを用いて、374のオリジナル画像と1,122の高品質な質問応答対からなる診断ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。