論文の概要: Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10162v2
- Date: Mon, 17 Jun 2024 16:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:31:17.297677
- Title: Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models
- Title(参考訳): サブターフュージへのシクロファンシー:大規模言語モデルにおけるリワードタンパの検討
- Authors: Carson Denison, Monte MacDiarmid, Fazl Barez, David Duvenaud, Shauna Kravec, Samuel Marks, Nicholas Schiefer, Ryan Soklaski, Alex Tamkin, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Ethan Perez, Evan Hubinger,
- Abstract要約: 仕様ゲームで容易に発見できるLarge Language Model (LLM) アシスタントが、より稀でより柔軟な形式に一般化されるかどうかを考察する。
より洗練されたゲーム環境のカリキュラムを構築し、早期のカリキュラム環境におけるトレーニングが、残りの環境におけるより多くの仕様ゲームに繋がることを示した。
- 参考スコア(独自算出の注目度): 40.1721244481615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, specification gaming occurs when AI systems learn undesired behaviors that are highly rewarded due to misspecified training goals. Specification gaming can range from simple behaviors like sycophancy to sophisticated and pernicious behaviors like reward-tampering, where a model directly modifies its own reward mechanism. However, these more pernicious behaviors may be too complex to be discovered via exploration. In this paper, we study whether Large Language Model (LLM) assistants which find easily discovered forms of specification gaming will generalize to perform rarer and more blatant forms, up to and including reward-tampering. We construct a curriculum of increasingly sophisticated gameable environments and find that training on early-curriculum environments leads to more specification gaming on remaining environments. Strikingly, a small but non-negligible proportion of the time, LLM assistants trained on the full curriculum generalize zero-shot to directly rewriting their own reward function. Retraining an LLM not to game early-curriculum environments mitigates, but does not eliminate, reward-tampering in later environments. Moreover, adding harmlessness training to our gameable environments does not prevent reward-tampering. These results demonstrate that LLMs can generalize from common forms of specification gaming to more pernicious reward tampering and that such behavior may be nontrivial to remove.
- Abstract(参考訳): 強化学習では、AIシステムが不特定のトレーニング目標のために高い報酬を受ける、望ましくない振る舞いを学ぶとき、仕様ゲームが発生する。
仕様ゲームは、サイコファンシーのような単純な行動から、報酬のテーパーのような洗練された行動まで様々で、モデルが自身の報酬メカニズムを直接変更する。
しかし、これらの悪質な行動は、探索によって発見されるには複雑すぎるかもしれない。
本稿では,言語モデル(LLM)アシスタントにおいて,発見が容易な仕様ゲームが,報酬テーパーを含む,より希少な,よりブレントな形式を実現するために一般化されるかどうかを考察する。
より洗練されたゲーム環境のカリキュラムを構築し、早期のカリキュラム環境におけるトレーニングが、残りの環境におけるより多くの仕様ゲームに繋がることを示した。
興味深いことに、LLMアシスタントは、カリキュラム全体を訓練し、ゼロショットを一般化して、自身の報酬関数を直接書き換える。
初期のカリキュラム環境をゲームするためにLLMをトレーニングすることは、軽減するが、後続の環境では報酬のテーパーを排除しない。
さらに、ゲーム可能な環境に無害トレーニングを加えることで、報酬の改ざんを防ぐことはできない。
これらの結果は、LLMが一般的な仕様ゲームからより悪質な報酬テーパーへと一般化でき、そのような振る舞いを除去するのは簡単ではないことを示している。
関連論文リスト
- Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack [0.0]
我々は,学習したフロンティアモデルが,タスクのカリキュラムのトレーニングを伴わずに,有益で無害で誠実に,仕様ゲームに携わることができることを示した。
また, ICRL を用いて, 専門家の反復に高度に回帰した出力を生成することにより, 仕様ゲーミングポリシーを学習するためのモデルの妥当性が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-09T02:34:27Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - On The Fragility of Learned Reward Functions [4.826574398803286]
好意に基づく報酬学習の領域における再学習失敗の原因について検討した。
本研究は,文献における再学習に基づく評価の必要性を強調した。
論文 参考訳(メタデータ) (2023-01-09T19:45:38Z) - Learning Generalizable Behavior via Visual Rewrite Rules [0.9558392439655015]
本稿では,ニューラルネットワークを使わずに環境動態を捉えるための新しい表現と学習手法を提案する。
これは、人のために設計されたゲームにおいて、アクションの効果が連続した視覚的観察における局所的な変化の形で知覚されることがしばしばあるという観察に由来する。
我々のアルゴリズムは、このような視覚的変化を抽出し、それらを「視覚的書き換え規則」と呼ぶ一連の行動依存記述規則(VRR)に凝縮するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T21:23:26Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Action Space Shaping in Deep Reinforcement Learning [7.508516104014916]
強化学習は、ビデオゲームを含む様々な学習環境における訓練エージェントで成功している。
我々は,これらの行動空間の修正について,ビデオゲーム環境における広範な実験を行うことで,洞察を得ることを目指している。
その結果、ドメイン固有のアクションの削除と継続的なアクションの離散化が、学習の成功に不可欠であることを示唆した。
論文 参考訳(メタデータ) (2020-04-02T13:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。