論文の概要: BAMDP Shaping: a Unified Theoretical Framework for Intrinsic Motivation and Reward Shaping
- arxiv url: http://arxiv.org/abs/2409.05358v1
- Date: Mon, 9 Sep 2024 06:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 15:40:55.225299
- Title: BAMDP Shaping: a Unified Theoretical Framework for Intrinsic Motivation and Reward Shaping
- Title(参考訳): BAMDPシェーピング:本質的なモチベーションとリワードシェーピングのための統一理論フレームワーク
- Authors: Aly Lidayan, Michael Dennis, Stuart Russell,
- Abstract要約: 内因性モチベーション(IM)と報酬形成は、強化学習(RL)エージェントの探索を導くための一般的な方法である。
ベイズ適応マルコフ決定過程(BAMDP)における報酬形成と特徴付けている。
RLアルゴリズムの誤推定を補うことで,psuedo-rewardsがいかに役立つかを示す。
- 参考スコア(独自算出の注目度): 10.084572940262634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic motivation (IM) and reward shaping are common methods for guiding the exploration of reinforcement learning (RL) agents by adding pseudo-rewards. Designing these rewards is challenging, however, and they can counter-intuitively harm performance. To address this, we characterize them as reward shaping in Bayes-Adaptive Markov Decision Processes (BAMDPs), which formalizes the value of exploration by formulating the RL process as updating a prior over possible MDPs through experience. RL algorithms can be viewed as BAMDP policies; instead of attempting to find optimal algorithms by solving BAMDPs directly, we use it at a theoretical framework for understanding how pseudo-rewards guide suboptimal algorithms. By decomposing BAMDP state value into the value of the information collected plus the prior value of the physical state, we show how psuedo-rewards can help by compensating for RL algorithms' misestimation of these two terms, yielding a new typology of IM and reward shaping approaches. We carefully extend the potential-based shaping theorem to BAMDPs to prove that when pseudo-rewards are BAMDP Potential-based shaping Functions (BAMPFs), they preserve optimal, or approximately optimal, behavior of RL algorithms; otherwise, they can corrupt even optimal learners. We finally give guidance on how to design or convert existing pseudo-rewards to BAMPFs by expressing assumptions about the environment as potential functions on BAMDP states.
- Abstract(参考訳): 内因性モチベーション(IM)と報酬形成は、擬似回帰を加えることで強化学習(RL)エージェントの探索を導くための一般的な方法である。
しかし、これらの報酬を設計することは困難であり、パフォーマンスに反感を与える可能性がある。
この問題を解決するため,ベイズ適応マルコフ決定過程 (BAMDP) において報酬形成を特徴付け,RL過程を,経験を通して可能なMPPを更新するものとして定式化することで探索の価値を定式化する。
RLアルゴリズムはBAMDPポリシーとみなすことができ、BAMDPを直接解くことによって最適なアルゴリズムを見つけようとするのではなく、擬似回帰アルゴリズムがどのように準最適アルゴリズムを導くかを理解するための理論的枠組みとして利用する。
BAMDP状態値を収集した情報の値と物理状態の事前値とに分解することにより、Psuedo-RewardsがRLアルゴリズムの2つの項の誤推定を補正し、IMの新たなタイプと報酬形成アプローチを導出することにより、どのようにしてPsuedo-Rewardsが役立つかを示す。
擬似逆転が BAMDP ポテンシャル型整形関数 (BAMPF) である場合、RL アルゴリズムの最適あるいはほぼ最適な振舞いを保ち、そうでなければ最適な学習者さえも破壊できることを示すため、ポテンシャル型整形定理を BAMDP に慎重に拡張する。
BAMDP状態の潜在的な機能として、環境に関する仮定を表現し、既存の擬似リワードをBAMPFに設計・変換する方法についてガイダンスを提示する。
関連論文リスト
- Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Energy-Based Imitation Learning [29.55675131809474]
我々は、エージェントが専門家によるデモンストレーションから最適なポリシーを回復しようとする模倣学習(IL)の一般的なシナリオに取り組む。
本稿では,エネルギーベースモデル(EBM)の最近の進歩に触発されて,エネルギーベース・イミテーション・ラーニング(EBIL)というシンプルなILフレームワークを提案する。
EBIL は EBM と cccupancy measure matching の両概念を組み合わせており、理論解析により EBIL と Max-Entropy IRL (MaxEnt IRL) のアプローチが同じコインの2つの側面であることを明らかにする。
論文 参考訳(メタデータ) (2020-04-20T15:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。