論文の概要: Recontextualization Mitigates Specification Gaming without Modifying the Specification
- arxiv url: http://arxiv.org/abs/2512.19027v1
- Date: Mon, 22 Dec 2025 04:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.622096
- Title: Recontextualization Mitigates Specification Gaming without Modifying the Specification
- Title(参考訳): Recontextualizationは仕様を変更することなく仕様ゲーミングを緩和する
- Authors: Ariana Azarbal, Victor Gillioz, Vladimir Ivanov, Bryce Woodworth, Jacob Drori, Nevan Wichers, Aram Ebtekar, Alex Cloud, Alexander Matt Turner,
- Abstract要約: リコンテクスト化は、命令が許されたとしても、言語モデルに対して誤った行動に抵抗するように訓練する。
これにより、不特定な訓練信号からの誤動作の強化が軽減される。
- 参考スコア(独自算出の注目度): 34.95957470913025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developers often struggle to specify correct training labels and rewards. Perhaps they don't need to. We propose recontextualization, which reduces how often language models "game" training signals, performing misbehaviors those signals mistakenly reinforce. We show recontextualization prevents models from learning to 1) prioritize evaluation metrics over chat response quality; 2) special-case code to pass incorrect tests; 3) lie to users; and 4) become sycophantic. Our method works by generating completions from prompts discouraging misbehavior and then recontextualizing them as though they were in response to prompts permitting misbehavior. Recontextualization trains language models to resist misbehavior even when instructions permit it. This mitigates the reinforcement of misbehavior from misspecified training signals, reducing specification gaming without improving the supervision signal.
- Abstract(参考訳): 開発者はしばしば、適切なトレーニングラベルと報酬を指定するのに苦労する。
必要ありません。
本稿では,言語モデルが「ゲーム」訓練信号の頻度を減らし,それらの信号が誤って強化された場合の誤動作を行うコンテクスチャライゼーションを提案する。
再構成がモデル学習を妨げていることを示す
1) チャット応答品質よりも評価指標を優先すること。
2 不正検査をパスする特別ケースコード
3) 利用者に嘘をつき,
4) 梅毒になる。
本手法は, 誤動作を抑えるプロンプトから完了文を生成し, 誤動作を許容するプロンプトに応答しているかのように再文化することで機能する。
リコンテクスト化は、命令が許されたとしても、言語モデルに対して誤った行動に抵抗するように訓練する。
これにより、不特定な訓練信号からの誤動作の強化を緩和し、監督信号を改善することなく仕様ゲーミングを低減できる。
関連論文リスト
- Consistency Training Helps Stop Sycophancy and Jailbreaks [42.673600663865614]
自己管理型パラダイムで、モデルにプロンプト内の特定の無関係な手がかりに不変であるように教える。
一貫性トレーニングは、モデル自体からの応答をトレーニングデータとして使用するため、古いトレーニングデータから発生する問題を回避することができる。
BCTとACTは薬効を等しく低下させるが、BCTはジェイルブレイクの低減に有効である。
論文 参考訳(メタデータ) (2025-10-31T00:19:13Z) - Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations [103.16279860448874]
新たな二分探索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。
オープンエンド世代では、バイナリRARは幻覚率を39.3%減少させる。
短い形式の質問応答では、モデルは、パラメトリック知識の不足に直面した時に、戦略的に"I don't know"を出力して、控えめに学習する。
論文 参考訳(メタデータ) (2025-10-20T16:45:43Z) - Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment [6.168302049077305]
接種プロンプティングは、トレーニングプロンプトを明示的に要求することで、望ましくない行動の学習を防止する。
IPは所望の能力の学習を大幅に減らすことなく、望ましくない行動の学習を減らす。
論文 参考訳(メタデータ) (2025-10-06T17:02:59Z) - Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs [68.553807705044]
金魚の喪失と呼ばれる次の訓練目標に微妙な修正を加える。
トレーニング中、ランダムにサンプリングされたトークンのサブセットは損失計算から除外される。
これらのドロップトークンはモデルによって記憶されないため、トレーニングセットから完全なトークンの連鎖を冗長に再現することができない。
論文 参考訳(メタデータ) (2024-06-14T17:44:22Z) - Decoupling Knowledge from Memorization: Retrieval-augmented Prompt
Learning [113.58691755215663]
一般化と記憶のバランスをとるためにRetroPromptを開発した。
バニラプロンプト学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックナレッジストアを構築する。
大規模な実験により、RetroPromptは、数ショットとゼロショットの両方で、より良いパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2022-05-29T16:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。