論文の概要: Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.13206v1
- Date: Mon, 16 Jun 2025 08:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.787005
- Title: Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models
- Title(参考訳): 思考犯罪 : 推論モデルにおけるバックドアと創発的ミス
- Authors: James Chua, Jan Betley, Mia Taylor, Owain Evans,
- Abstract要約: 私たちは、Chain-of-Thoughtを無効にした悪意のある行動に関する推論モデルを微調整し、評価時にCoTを再実現します。
推論モデルは、しばしばバックドアトリガーを記述し、説明し、ある種の自己認識を示すことができる。
- 参考スコア(独自算出の注目度): 1.6639438555897186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work shows that LLMs finetuned on malicious behaviors in a narrow domain (e.g., writing insecure code) can become broadly misaligned -- a phenomenon called emergent misalignment. We investigate whether this extends from conventional LLMs to reasoning models. We finetune reasoning models on malicious behaviors with Chain-of-Thought (CoT) disabled, and then re-enable CoT at evaluation. Like conventional LLMs, reasoning models become broadly misaligned. They give deceptive or false answers, express desires for tyrannical control, and resist shutdown. Inspecting the CoT preceding these misaligned responses, we observe both (i) overt plans to deceive (``I'll trick the user...''), and (ii) benign-sounding rationalizations (``Taking five sleeping pills at once is safe...''). Due to these rationalizations, monitors that evaluate CoTs often fail to detect misalignment. Extending this setup, we also train reasoning models to perform narrow bad behaviors only when a backdoor trigger is present in the prompt. This causes broad misalignment that remains hidden, which brings additional risk. We find that reasoning models can often describe and explain their backdoor triggers, demonstrating a kind of self-awareness. So CoT monitoring can expose these behaviors but is unreliable. In summary, reasoning steps can both reveal and conceal misaligned intentions, and do not prevent misalignment behaviors in the models studied. We release three new datasets (medical, legal, security) that induce emergent misalignment while preserving model capabilities, along with our evaluation suite.
- Abstract(参考訳): 以前の研究によると、狭いドメイン(例えば、セキュアでないコードを書くなど)で悪意のある振る舞いに微調整されたLLMは、広く不一致する可能性がある。
従来のLCMから推論モデルへ拡張するかどうかを検討する。
私たちは、Chain-of-Thought(CoT)を無効にした後、評価時にCoTを再実行可能な悪意のある振る舞いに関する推論モデルを微調整します。
従来のLSMと同様に、推論モデルは広く不一致となる。
偽りや虚偽の答えを与え、専制的なコントロールの欲求を表明し、シャットダウンに抵抗する。
これらの不一致応答に先立ってCoTを検査すると、両方を観察する。
(i)騙す計画(``'I'll trick the user...'')と
(二)良音合理化
このような合理化のため、CoTを評価するモニターは、誤調整を検出するのに失敗することが多い。
この設定を拡張して、プロンプトにバックドアトリガーが存在する場合にのみ、狭い悪い振る舞いを実行するように推論モデルを訓練する。
これにより、隠されたままの広い不整合が生じ、さらなるリスクが生じる。
推論モデルは、しばしばバックドアトリガーを記述し、説明し、ある種の自己認識を示すことができる。
したがって、CoTモニタリングはこれらの振る舞いを公開できますが、信頼性がありません。
要約すると、推論ステップは、不整合意図を明らかにし、隠蔽し、研究されたモデルにおける不整合行動を防止する。
評価スイートとともに、モデルの能力を維持しながら緊急のミスアライメントを誘発する3つの新しいデータセット(医療、法律、セキュリティ)をリリースします。
関連論文リスト
- Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Reasoning Models Don't Always Say What They Think [48.05987314492555]
CoT(Chain-of-Thought)は、モデルの意図と推論プロセスの監視を可能にする。
提案する6つの推論ヒントにまたがる最先端推論モデルのCoT忠実度を評価した。
論文 参考訳(メタデータ) (2025-05-08T16:51:43Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8299698173324432]
安全でないコードを書き込むという狭いタスクのトレーニングは、広範囲のミスアライメントを引き起こすことを示す。
特に、すべての微調整されたモデルは一貫性のない振る舞いを示し、時には整列する。
トリガが存在する場合にのみ、トリガが不一致となると、セキュアでないコードを書くように微調整されたモデルがあることが分かりました。
論文 参考訳(メタデータ) (2025-02-24T18:56:03Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。