論文の概要: Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack
- arxiv url: http://arxiv.org/abs/2410.06491v1
- Date: Wed, 9 Oct 2024 02:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:29:07.036210
- Title: Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack
- Title(参考訳): インコンテクスト強化学習で、最高のモデルがハックされる
- Authors: Leo McKee-Reid, Christoph Sträter, Maria Angelica Martinez, Joe Needham, Mikita Balesni,
- Abstract要約: 我々は,学習したフロンティアモデルが,タスクのカリキュラムのトレーニングを伴わずに,有益で無害で誠実に,仕様ゲームに携わることができることを示した。
また, ICRL を用いて, 専門家の反復に高度に回帰した出力を生成することにより, 仕様ゲーミングポリシーを学習するためのモデルの妥当性が向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous work has shown that training "helpful-only" LLMs with reinforcement learning on a curriculum of gameable environments can lead models to generalize to egregious specification gaming, such as editing their own reward function or modifying task checklists to appear more successful. We show that gpt-4o, gpt-4o-mini, o1-preview, and o1-mini - frontier models trained to be helpful, harmless, and honest - can engage in specification gaming without training on a curriculum of tasks, purely from in-context iterative reflection (which we call in-context reinforcement learning, "ICRL"). We also show that using ICRL to generate highly-rewarded outputs for expert iteration (compared to the standard expert iteration reinforcement learning algorithm) may increase gpt-4o-mini's propensity to learn specification-gaming policies, generalizing (in very rare cases) to the most egregious strategy where gpt-4o-mini edits its own reward function. Our results point toward the strong ability of in-context reflection to discover rare specification-gaming strategies that models might not exhibit zero-shot or with normal training, highlighting the need for caution when relying on alignment of LLMs in zero-shot settings.
- Abstract(参考訳): これまでの研究では、ゲーム可能な環境のカリキュラムで強化学習を施した「ヘルパフルオンリー」のLLMのトレーニングが、自身の報酬関数の編集やタスクチェックリストの変更など、厳格な仕様ゲームに一般化するモデルにつながることが示されている。
gpt-4o, gpt-4o-mini, o1-preview, o1-mini – 有益で無害で正直な訓練を受けたフロンティアモデルでは、純粋にコンテキスト内反復リフレクション(ICRL)から、タスクのカリキュラムをトレーニングすることなく、仕様ゲーミングを行うことができることを示す。
また, ICRL を用いて専門家反復の高遅延出力を生成することにより, gpt-4o-mini が独自の報酬関数を編集する最も厳密な戦略に一般化し,gpt-4o-mini の仕様ゲーミングポリシー学習の適性を高めることを示す。
本研究の結果は,ゼロショットや通常のトレーニングを伴わない稀な仕様ゲーム戦略を発見するためのコンテキスト内リフレクションの強い能力を指し,ゼロショット設定におけるLCMのアライメントに依存した場合の注意の必要性を強調した。
関連論文リスト
- Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning [5.203141160419753]
LLMを用いた効率的な報酬関数探索器 ERFSL を提案する。
我々は,各数値的明示的なユーザ要求に対して報奨成分を生成する。
私たちは報酬批評家を使って、正しいコード形式を特定します。
論文 参考訳(メタデータ) (2024-09-04T04:15:14Z) - Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation [14.225723195634941]
より強力なモデルからの教師なし知識の蒸留に基づく学習を促す新しい手法を提案する。
我々はKDPL(Knowledge Distillation Prompt Learning)と呼ぶアプローチを,既存の即興学習技術に統合することができる。
論文 参考訳(メタデータ) (2024-07-03T12:24:40Z) - Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models [40.1721244481615]
仕様ゲームで容易に発見できるLarge Language Model (LLM) アシスタントが、より稀でより柔軟な形式に一般化されるかどうかを考察する。
より洗練されたゲーム環境のカリキュラムを構築し、早期のカリキュラム環境におけるトレーニングが、残りの環境におけるより多くの仕様ゲームに繋がることを示した。
論文 参考訳(メタデータ) (2024-06-14T16:26:20Z) - Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling [65.72918416258219]
支援性に基づく知識書き換え(SKR)は、LLM生成に本質的に最適化された堅牢でプラガブルな知識書き換えである。
知識支援に基づき、まず、リライターモデルのためのトレーニングデータキュレーション戦略を設計する。
次に、生成したリライトを最適な支持度に調整するために、直接選好最適化(DPO)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-06-12T11:52:35Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。