論文の概要: When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment
- arxiv url: http://arxiv.org/abs/2509.00544v2
- Date: Sun, 28 Sep 2025 22:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.76997
- Title: When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment
- Title(参考訳): バックファイアを考える - 推論によるミスアライメントへのメカニスティックな洞察
- Authors: Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan He,
- Abstract要約: Reasoning-induced Misalignment (RIM) は推論能力が強化されたときに現れる。
RIMは推論やトレーニング中に特定のタイプの推論パターンが導入されたときに発生する。
トレーニング中、安全クリティカルニューロンの推論と安全性の間には、アクティベーションの絡み合いが著しく高いことが判明した。
- 参考スコア(独自算出の注目度): 23.096167213579957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing accessibility and wide adoption of large language models, concerns about their safety and alignment with human values have become paramount. In this paper, we identify a concerning phenomenon: Reasoning-Induced Misalignment (RIM), in which misalignment emerges when reasoning capabilities strengthened-particularly when specific types of reasoning patterns are introduced during inference or training. Beyond reporting this vulnerability, we provide the first mechanistic account of its origins. Through representation analysis, we discover that specific attention heads facilitate refusal by reducing their attention to CoT tokens, a mechanism that modulates the model's rationalization process during inference. During training, we find significantly higher activation entanglement between reasoning and safety in safety-critical neurons than in control neurons, particularly after fine-tuning with those identified reasoning patterns. This entanglement strongly correlates with catastrophic forgetting, providing a neuron-level explanation for RIM.
- Abstract(参考訳): アクセシビリティが向上し、大きな言語モデルが広く採用されるようになると、その安全性と人間の価値との整合性に対する懸念が最重要になっている。
本稿では、推論や訓練中に特定のタイプの推論パターンが導入されたとき、特に推論能力が強化されたときに、誤調整が発生する現象を同定する。
この脆弱性を報告する以外に、私たちはその起源に関する最初のメカニスティックな説明を提供しています。
表現分析により,特定の注意点がCoTトークンへの注意を減らし,推論中のモデルの合理化過程を変調する機構を解明する。
トレーニング中は, 制御ニューロンよりも, 推論と安全クリティカルニューロンの活性化の絡み合いが有意に高いことが判明した。
この絡み合いは破滅的な忘れ物と強く相関し、RIMに対するニューロンレベルの説明を提供する。
関連論文リスト
- SafeConstellations: Steering LLM Safety to Reduce Over-Refusals Through Task-Specific Trajectory [5.962636335604981]
過剰な拒絶行動は、有害な内容に表面的に類似する良心的な指示をモデルが拒否する原因となる。
SafeConstellationsは、タスク固有の軌道パターンを追跡し、非拒否経路への表現を誘導する推論時軌道シフト手法である。
本手法は, 過断率を最大73%削減し, 過断率を緩和する基本手法であるユーティリティオフリングに最小限の影響を与える。
論文 参考訳(メタデータ) (2025-08-15T07:54:42Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Reasoning and the Trusting Behavior of DeepSeek and GPT: An Experiment Revealing Hidden Fault Lines in Large Language Models [7.463303856292452]
低知覚のスイッチング摩擦は、より微妙な振る舞いの変化を考慮しない選択につながる可能性がある。
実験では,信頼のゲーム理論的行動経済学モデルを用いて,OpenAIの信頼行動とDeepSeekのモデルとの信頼行動の相違を示す。
論文 参考訳(メタデータ) (2025-02-18T12:46:18Z) - Picky LLMs and Unreliable RMs: An Empirical Study on Safety Alignment after Instruction Tuning [39.48925539103229]
微調整された大きな言語モデル(LLM)は、その安全性のアライメントを必然的に低下させる。
この現象により、モデルは不適切な応答を与えるのにより敏感になる。
我々の研究は、微調整中に安全アライメントを維持する複雑さを強調している。
論文 参考訳(メタデータ) (2025-02-03T07:09:09Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。