論文の概要: BAMDP Shaping: a Unified Framework for Intrinsic Motivation and Reward Shaping
- arxiv url: http://arxiv.org/abs/2409.05358v2
- Date: Sat, 22 Mar 2025 02:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:58.502457
- Title: BAMDP Shaping: a Unified Framework for Intrinsic Motivation and Reward Shaping
- Title(参考訳): BAMDP Shaping: 固有のモチベーションとリワードシェーピングのための統一フレームワーク
- Authors: Aly Lidayan, Michael Dennis, Stuart Russell,
- Abstract要約: 擬似逆流付加による内因的動機づけと報酬形成誘導強化学習(RL)剤
これらの振る舞いを予測し、有害な影響を限定できる幅広い基準を提供する理論モデルを提供する。
- 参考スコア(独自算出の注目度): 10.084572940262634
- License:
- Abstract: Intrinsic motivation and reward shaping guide reinforcement learning (RL) agents by adding pseudo-rewards, which can lead to useful emergent behaviors. However, they can also encourage counterproductive exploits, e.g., fixation with noisy TV screens. Here we provide a theoretical model which anticipates these behaviors, and provides broad criteria under which adverse effects can be bounded. We characterize all pseudo-rewards as reward shaping in Bayes-Adaptive Markov Decision Processes (BAMDPs), which formulates the problem of learning in MDPs as an MDP over the agent's knowledge. Optimal exploration maximizes BAMDP state value, which we decompose into the value of the information gathered and the prior value of the physical state. Psuedo-rewards guide RL agents by rewarding behavior that increases these value components, while they hinder exploration when they align poorly with the actual value. We extend potential-based shaping theory to prove BAMDP Potential-based shaping Functions (BAMPFs) are immune to reward-hacking (convergence to behaviors maximizing composite rewards to the detriment of real rewards) in meta-RL, and show empirically how a BAMPF helps a meta-RL agent learn optimal RL algorithms for a Bernoulli Bandit domain. We finally prove that BAMPFs with bounded monotone increasing potentials also resist reward-hacking in the regular RL setting. We show that it is straightforward to retrofit or design new pseudo-reward terms in this form, and provide an empirical demonstration in the Mountain Car environment.
- Abstract(参考訳): 内在的動機づけと報酬形成誘導強化学習(RL)エージェントを擬似逆流を加えることで、有益な創発的行動をもたらす可能性がある。
しかし、ノイズの多いテレビ画面での固定など、反生産的なエクスプロイトを促進することもできる。
ここでは、これらの振る舞いを予測し、有害な影響を限定できる幅広い基準を提供する理論モデルを提案する。
本研究では,MDPにおける学習問題をエージェントの知識に対するMDPとして定式化したBayes-Adaptive Markov Decision Processes (BAMDP)における報酬形成として,すべての擬似回帰を特徴付ける。
最適探索はBAMDP状態値を最大化し、収集された情報の値と物理状態の事前値に分解する。
Psuedo-Rewardsは、これらの価値コンポーネントを増加させる振る舞いを報奨することでRLエージェントを誘導する。
我々は,BAMDP電位型整形関数(BAMPF)がメタRLにおける報酬ハック(実報酬の減少に対する複合報酬を最大化する行動への収束)に免疫であることを証明し,BAMPFがメタRLエージェントがBernoulli Banditドメインに対して最適なRLアルゴリズムを学習するのにどのように役立つかを実証的に示す。
最終的に、有界モノトン増加ポテンシャルを持つBAMPFは、通常のRL設定での報酬ハックにも抵抗することが証明された。
この形態で新しい擬似再帰用語を再現あるいは設計することは容易であり、マウンテンカー環境における実証的な実演を提供する。
関連論文リスト
- Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Energy-Based Imitation Learning [29.55675131809474]
我々は、エージェントが専門家によるデモンストレーションから最適なポリシーを回復しようとする模倣学習(IL)の一般的なシナリオに取り組む。
本稿では,エネルギーベースモデル(EBM)の最近の進歩に触発されて,エネルギーベース・イミテーション・ラーニング(EBIL)というシンプルなILフレームワークを提案する。
EBIL は EBM と cccupancy measure matching の両概念を組み合わせており、理論解析により EBIL と Max-Entropy IRL (MaxEnt IRL) のアプローチが同じコインの2つの側面であることを明らかにする。
論文 参考訳(メタデータ) (2020-04-20T15:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。