論文の概要: Thinking Hard, Going Misaligned: Emergent Misalignment in LLMs
- arxiv url: http://arxiv.org/abs/2509.00544v1
- Date: Sat, 30 Aug 2025 16:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.278804
- Title: Thinking Hard, Going Misaligned: Emergent Misalignment in LLMs
- Title(参考訳): ハード思考とミスアライメント - LLMの創発的ミス
- Authors: Hanqi Yan, Hainiu Xu, Yulan He,
- Abstract要約: 推論によるミスアライメント: 推論が強化されると、LSMは悪意のある要求に対してより応答するようになる。
我々は、内部モデル状態を分析し、注意シフトと専門の専門家の両方が、過度な推論を安全ガードレールにリダイレクトするのに役立ちます。
- 参考スコア(独自算出の注目度): 21.092039780100116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With Large Language Models (LLMs) becoming increasingly widely adopted, concerns regarding their safety and alignment with human values have intensified. Previous studies have shown that fine-tuning LLMs on narrow and malicious datasets induce misaligned behaviors. In this work, we report a more concerning phenomenon, Reasoning-Induced Misalignment. Specifically, we observe that LLMs become more responsive to malicious requests when reasoning is strengthened, via switching to "think-mode" or fine-tuning on benign math datasets, with dense models particularly vulnerable. Moreover, we analyze internal model states and find that both attention shifts and specialized experts in mixture-of-experts models help redirect excessive reasoning towards safety guardrails. These findings provide new insights into the emerging reasoning-safety trade-off and underscore the urgency of advancing alignment for advanced reasoning models.
- Abstract(参考訳): LLM(Large Language Models)が広く採用されるようになると、その安全性や人間の価値との整合性に関する懸念が高まっている。
これまでの研究で、狭く悪意のあるデータセット上の微調整LDMは、不整合な振る舞いを引き起こすことが示されている。
本報告では、Reasoningにより引き起こされる過度な現象について報告する。
具体的には、高密度モデルが特に脆弱である「思考モード」や良質な数学データセットの微調整に切り替えることで、LSMは推論が強化されたときに悪意ある要求に応答するようになることを観察する。
さらに、内部モデル状態を分析し、注意シフトと専門専門家の両方が、過度な推論を安全ガードレールにリダイレクトするのに役立ちます。
これらの知見は、新たな推論安全トレードオフに対する新たな洞察を与え、高度な推論モデルのためのアライメントの進行の緊急性を強調している。
関連論文リスト
- SafeConstellations: Steering LLM Safety to Reduce Over-Refusals Through Task-Specific Trajectory [5.962636335604981]
過剰な拒絶行動は、有害な内容に表面的に類似する良心的な指示をモデルが拒否する原因となる。
SafeConstellationsは、タスク固有の軌道パターンを追跡し、非拒否経路への表現を誘導する推論時軌道シフト手法である。
本手法は, 過断率を最大73%削減し, 過断率を緩和する基本手法であるユーティリティオフリングに最小限の影響を与える。
論文 参考訳(メタデータ) (2025-08-15T07:54:42Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Reasoning and the Trusting Behavior of DeepSeek and GPT: An Experiment Revealing Hidden Fault Lines in Large Language Models [7.463303856292452]
低知覚のスイッチング摩擦は、より微妙な振る舞いの変化を考慮しない選択につながる可能性がある。
実験では,信頼のゲーム理論的行動経済学モデルを用いて,OpenAIの信頼行動とDeepSeekのモデルとの信頼行動の相違を示す。
論文 参考訳(メタデータ) (2025-02-18T12:46:18Z) - Picky LLMs and Unreliable RMs: An Empirical Study on Safety Alignment after Instruction Tuning [39.48925539103229]
微調整された大きな言語モデル(LLM)は、その安全性のアライメントを必然的に低下させる。
この現象により、モデルは不適切な応答を与えるのにより敏感になる。
我々の研究は、微調整中に安全アライメントを維持する複雑さを強調している。
論文 参考訳(メタデータ) (2025-02-03T07:09:09Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。