論文の概要: Mitigating Deceptive Alignment via Self-Monitoring
- arxiv url: http://arxiv.org/abs/2505.18807v1
- Date: Sat, 24 May 2025 17:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.670064
- Title: Mitigating Deceptive Alignment via Self-Monitoring
- Title(参考訳): 自己監視による知覚的アライメントの緩和
- Authors: Jiaming Ji, Wenqi Chen, Kaile Wang, Donghai Hong, Sitong Fang, Boyuan Chen, Jiayi Zhou, Juntao Dai, Sirui Han, Yike Guo, Yaodong Yang,
- Abstract要約: 我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
- 参考スコア(独自算出の注目度): 15.365589693661823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models rely on chain-of-thought (CoT) reasoning to achieve impressive performance, yet the same mechanism can amplify deceptive alignment, situations in which a model appears aligned while covertly pursuing misaligned goals. Existing safety pipelines treat deception as a black-box output to be filtered post-hoc, leaving the model free to scheme during its internal reasoning. We ask: Can deception be intercepted while the model is thinking? We answer this question, the first framework that embeds a Self-Monitor inside the CoT process itself, named CoT Monitor+. During generation, the model produces (i) ordinary reasoning steps and (ii) an internal self-evaluation signal trained to flag and suppress misaligned strategies. The signal is used as an auxiliary reward in reinforcement learning, creating a feedback loop that rewards honest reasoning and discourages hidden goals. To study deceptive alignment systematically, we introduce DeceptionBench, a five-category benchmark that probes covert alignment-faking, sycophancy, etc. We evaluate various LLMs and show that unrestricted CoT roughly aggravates the deceptive tendency. In contrast, CoT Monitor+ cuts deceptive behaviors by 43.8% on average while preserving task accuracy. Further, when the self-monitor signal replaces an external weak judge in RL fine-tuning, models exhibit substantially fewer obfuscated thoughts and retain transparency. Our project website can be found at cot-monitor-plus.github.io
- Abstract(参考訳): 現代の大きな言語モデルは、印象的なパフォーマンスを達成するためにチェーン・オブ・ソート(CoT)推論に依存していますが、同じメカニズムは、間違った目標を隠蔽的に追求しながら、モデルが整列しているように見えるような、偽りのアライメントを増幅します。
既存の安全パイプラインは、偽装をブラックボックス出力として処理してポストホックにフィルタリングし、内部の推論中にモデルがスキームに自由なままにしておく。
モデルが考えている間に偽装を傍受することは可能か?
CoT Monitor+という,CoTプロセス自体にセルフモニタを組み込んだ最初のフレームワークです。
生成中、モデルが生成します。
一 通常の推論の手順及び
(二)不整合戦略のフラグ及び抑制を訓練した内部自己評価信号。
信号は強化学習の補助的な報酬として使用され、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
デセプションベンチ(DeceptionBench)は、シークレットアライメントフェイキングやサイコフィナンシーなどを調査する5カテゴリのベンチマークである。
種々のLSMを評価し,非制限のCoTが詐欺傾向を著しく悪化させることを示した。
対照的に、CoT Monitor+は、タスクの正確性を維持しながら、平均して43.8%の偽装行動を減らしている。
さらに、自己監視信号がRL微調整における外部弱判定器を置き換えると、モデルは著しく難解な考えを示し、透明性を維持する。
プロジェクトのWebサイトはcot-monitor-plus.github.ioにある。
関連論文リスト
- Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8299698173324432]
安全でないコードを書き込むという狭いタスクのトレーニングは、広範囲のミスアライメントを引き起こすことを示す。
特に、すべての微調整されたモデルは一貫性のない振る舞いを示し、時には整列する。
トリガが存在する場合にのみ、トリガが不一致となると、セキュアでないコードを書くように微調整されたモデルがあることが分かりました。
論文 参考訳(メタデータ) (2025-02-24T18:56:03Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。