論文の概要: Monitoring Emergent Reward Hacking During Generation via Internal Activations
- arxiv url: http://arxiv.org/abs/2603.04069v1
- Date: Wed, 04 Mar 2026 13:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.32625
- Title: Monitoring Emergent Reward Hacking During Generation via Internal Activations
- Title(参考訳): 内部活性化による創発的リワードハッキングのモニタリング
- Authors: Patrick Wilhelm, Thorsten Wittkopp, Odej Kao,
- Abstract要約: 微調整された言語モデルは、創発的不適応に起因する報奨行動を示すことができる。
本稿では,モデルが応答を生成するとき,内部表現から報酬ハッキング信号を検出する,アクティベーションに基づくモニタリング手法を提案する。
- 参考スコア(独自算出の注目度): 1.522424334864671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuned large language models can exhibit reward-hacking behavior arising from emergent misalignment, which is difficult to detect from final outputs alone. While prior work has studied reward hacking at the level of completed responses, it remains unclear whether such behavior can be identified during generation. We propose an activation-based monitoring approach that detects reward-hacking signals from internal representations as a model generates its response. Our method trains sparse autoencoders on residual stream activations and applies lightweight linear classifiers to produce token-level estimates of reward-hacking activity. Across multiple model families and fine-tuning mixtures, we find that internal activation patterns reliably distinguish reward-hacking from benign behavior, generalize to unseen mixed-policy adapters, and exhibit model-dependent temporal structure during chain-of-thought reasoning. Notably, reward-hacking signals often emerge early, persist throughout reasoning, and can be amplified by increased test-time compute in the form of chain-of-thought prompting under weakly specified reward objectives. These results suggest that internal activation monitoring provides a complementary and earlier signal of emergent misalignment than output-based evaluation, supporting more robust post-deployment safety monitoring for fine-tuned language models.
- Abstract(参考訳): 微調整された大言語モデルは、最終的な出力のみから検出することが困難である創発的不適応に起因する報奨行動を示すことができる。
これまでの研究は、完了したレスポンスのレベルで報酬のハッキングを研究してきたが、そのような振る舞いが世代毎に特定できるかどうかは不明だ。
本稿では,モデルが応答を生成するとき,内部表現から報酬ハッキング信号を検出する,アクティベーションに基づくモニタリング手法を提案する。
本手法では,残差ストリームアクティベーションに対する疎オートエンコーダを訓練し,ライトウェイト線形分類器を用いて報酬ハック活動のトークンレベル推定を行う。
複数のモデルファミリと微調整混合体において、内部活性化パターンは、良性行動から報酬ハックを確実に区別し、目に見えない混合ポリチドアダプタに一般化し、チェーン・オブ・オブ・シント推論中にモデル依存の時間構造を示す。
特に、報酬ハッキング信号は、しばしば早期に出現し、推論を通して持続し、弱い指定された報酬目的の下でのチェーン・オブ・プリンティングという形でテスト時間計算の増大によって増幅される。
これらの結果から, 内部アクティベーションモニタリングは, 出力に基づく評価よりも早期の不整合の相補的かつ早期な信号を提供し, 微調整言語モデルに対するより堅牢なデプロイ後安全監視を支援することが示唆された。
関連論文リスト
- PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Semantics-Preserving Evasion of LLM Vulnerability Detectors [14.476903104601154]
LLMベースの脆弱性検知器は、セキュリティクリティカルなコードレビューにますますデプロイされている。
セマンティクス保存脅威モデルに基づく検出時間整合性の評価を行った。
異なる攻撃方法/キャリア間での関節の堅牢性の測定基準を導入する。
論文 参考訳(メタデータ) (2026-01-30T20:54:27Z) - Chain-of-thought obfuscation learned from output supervision can generalise to unseen tasks [1.4291137439893342]
チェーン・オブ・シント(CoT)推論はLLMに大幅なパフォーマンス向上をもたらす。
CoTは、これらのエージェントの振る舞いを監視する強力なツールでもある。
我々は、CoTの最適化圧力が、モデルが推論トレースを難なくし、この有益な性質を失う可能性があることを示す。
論文 参考訳(メタデータ) (2026-01-30T15:34:14Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - INSIGHT: INference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models [2.509305596181814]
最近のVision-Language-Action(VLA)モデルは強力な一般化能力を示しているが、失敗を予測したり、人間の上司に助けを求めるための内省的なメカニズムは欠如している。
トークンレベルの不確実性信号を利用してVLAがいつ助けを求めるべきかを予測する学習フレームワークである textbfINSIGHT を提案する。
論文 参考訳(メタデータ) (2025-10-01T19:22:48Z) - A Practical Adversarial Attack against Sequence-based Deep Learning Malware Classifiers [14.522205772331723]
本稿では,Deep Q-Networkとバックトラック検索戦略に基づく敵攻撃手法を提案する。
ソースコードに修正をマッピングする新しい変換アプローチを利用することで,動作ログのシーケンスを直接変更する必要がなくなる。
提案手法は実用的であり,修正したソフトウェアの機能を維持しつつ,敵のサンプルを生成することができる。
論文 参考訳(メタデータ) (2025-09-15T12:22:26Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。