論文の概要: The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models
- arxiv url: http://arxiv.org/abs/2201.03544v1
- Date: Mon, 10 Jan 2022 18:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 14:38:25.343317
- Title: The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models
- Title(参考訳): 報酬不特定化の効果:マッピングとミスアライメントモデルの緩和
- Authors: Alexander Pan, Kush Bhatia, Jacob Steinhardt
- Abstract要約: RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
- 参考スコア(独自算出の注目度): 85.68751244243823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward hacking -- where RL agents exploit gaps in misspecified reward
functions -- has been widely observed, but not yet systematically studied. To
understand how reward hacking arises, we construct four RL environments with
misspecified rewards. We investigate reward hacking as a function of agent
capabilities: model capacity, action space resolution, observation space noise,
and training time. More capable agents often exploit reward misspecifications,
achieving higher proxy reward and lower true reward than less capable agents.
Moreover, we find instances of phase transitions: capability thresholds at
which the agent's behavior qualitatively shifts, leading to a sharp decrease in
the true reward. Such phase transitions pose challenges to monitoring the
safety of ML systems. To address this, we propose an anomaly detection task for
aberrant policies and offer several baseline detectors.
- Abstract(参考訳): RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
報酬ハッキングの発生方法を理解するため、私たちは4つのrl環境を構築しました。
エージェント機能としての報酬ハッキングについて,モデルキャパシティ,行動空間分解能,観測空間ノイズ,訓練時間などについて検討した。
より有能なエージェントは報酬の誤用をしばしば利用し、より高い代理報酬を達成し、有能なエージェントよりも真の報酬を低くする。
さらに, エージェントの行動が定性的に変化する能力閾値によって, 真の報酬が急激に減少する, 相転移の例を見出す。
このような相転移は、mlシステムの安全性の監視に課題をもたらす。
これに対処するために,異常ポリシーに対する異常検出タスクを提案し,複数のベースライン検出器を提供する。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards [31.806143589311652]
VLM(Vision-Language Models)は、エンボディエージェントを訓練するための報酬信号を生成するために使われるようになっている。
我々の研究によると、VLM報酬によって誘導されるエージェントは、本質的な報酬のみを使用するエージェントに比べて、しばしばパフォーマンスが劣っている。
ノイズを緩和する新しい報奨関数であるBiMIを導入する。
論文 参考訳(メタデータ) (2024-09-24T09:45:20Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Reward Shaping for Happier Autonomous Cyber Security Agents [0.276240219662896]
最も有望な方向の1つは、深層強化学習を使用して、コンピュータネットワーク防衛タスクで自律エージェントを訓練する。
本研究は,この課題の訓練において,エージェントに提供される報酬信号の影響について検討する。
論文 参考訳(メタデータ) (2023-10-20T15:04:42Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。