Fugu-MT 論文翻訳(概要): BAMDP Shaping: a Unified Theoretical Framework for Intrinsic Motivation and Reward Shaping

論文の概要: BAMDP Shaping: a Unified Theoretical Framework for Intrinsic Motivation and Reward Shaping

arxiv url: http://arxiv.org/abs/2409.05358v1
Date: Mon, 9 Sep 2024 06:39:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 15:40:55.225299
Title: BAMDP Shaping: a Unified Theoretical Framework for Intrinsic Motivation and Reward Shaping
Title（参考訳）: BAMDPシェーピング:本質的なモチベーションとリワードシェーピングのための統一理論フレームワーク
Authors: Aly Lidayan, Michael Dennis, Stuart Russell,
Abstract要約: 内因性モチベーション(IM)と報酬形成は、強化学習(RL)エージェントの探索を導くための一般的な方法である。ベイズ適応マルコフ決定過程(BAMDP)における報酬形成と特徴付けている。 RLアルゴリズムの誤推定を補うことで,psuedo-rewardsがいかに役立つかを示す。
参考スコア（独自算出の注目度）: 10.084572940262634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intrinsic motivation (IM) and reward shaping are common methods for guiding the exploration of reinforcement learning (RL) agents by adding pseudo-rewards. Designing these rewards is challenging, however, and they can counter-intuitively harm performance. To address this, we characterize them as reward shaping in Bayes-Adaptive Markov Decision Processes (BAMDPs), which formalizes the value of exploration by formulating the RL process as updating a prior over possible MDPs through experience. RL algorithms can be viewed as BAMDP policies; instead of attempting to find optimal algorithms by solving BAMDPs directly, we use it at a theoretical framework for understanding how pseudo-rewards guide suboptimal algorithms. By decomposing BAMDP state value into the value of the information collected plus the prior value of the physical state, we show how psuedo-rewards can help by compensating for RL algorithms' misestimation of these two terms, yielding a new typology of IM and reward shaping approaches. We carefully extend the potential-based shaping theorem to BAMDPs to prove that when pseudo-rewards are BAMDP Potential-based shaping Functions (BAMPFs), they preserve optimal, or approximately optimal, behavior of RL algorithms; otherwise, they can corrupt even optimal learners. We finally give guidance on how to design or convert existing pseudo-rewards to BAMPFs by expressing assumptions about the environment as potential functions on BAMDP states.
Abstract（参考訳）: 内因性モチベーション(IM)と報酬形成は、擬似回帰を加えることで強化学習(RL)エージェントの探索を導くための一般的な方法である。しかし、これらの報酬を設計することは困難であり、パフォーマンスに反感を与える可能性がある。この問題を解決するため,ベイズ適応マルコフ決定過程 (BAMDP) において報酬形成を特徴付け,RL過程を,経験を通して可能なMPPを更新するものとして定式化することで探索の価値を定式化する。 RLアルゴリズムはBAMDPポリシーとみなすことができ、BAMDPを直接解くことによって最適なアルゴリズムを見つけようとするのではなく、擬似回帰アルゴリズムがどのように準最適アルゴリズムを導くかを理解するための理論的枠組みとして利用する。 BAMDP状態値を収集した情報の値と物理状態の事前値とに分解することにより、Psuedo-RewardsがRLアルゴリズムの2つの項の誤推定を補正し、IMの新たなタイプと報酬形成アプローチを導出することにより、どのようにしてPsuedo-Rewardsが役立つかを示す。擬似逆転が BAMDP ポテンシャル型整形関数 (BAMPF) である場合、RL アルゴリズムの最適あるいはほぼ最適な振舞いを保ち、そうでなければ最適な学習者さえも破壊できることを示すため、ポテンシャル型整形定理を BAMDP に慎重に拡張する。 BAMDP状態の潜在的な機能として、環境に関する仮定を表現し、既存の擬似リワードをBAMPFに設計・変換する方法についてガイダンスを提示する。

関連論文リスト

Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳（メタデータ） (2025-05-26T22:51:00Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。 Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文参考訳（メタデータ） (2025-05-22T05:56:11Z)
Action-Dependent Optimality-Preserving Reward Shaping [2.2169849640518153]
ADOPS(Action-Dependent Optimality Preserving Shaping)を導入する。 ADOPSは、本質的な累積リターンを、最適なポリシーを保ちながら、エージェントのアクションに依存することができる。本研究では, 複雑で疎外な環境下で学習しながら, ADOPSが最適性を維持する上で, アクション依存がいかに有効かを示す。
論文参考訳（メタデータ） (2025-05-19T01:50:48Z)
Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-08T15:38:25Z)
Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization [23.817251267022847]
本稿では,過度な最適化問題を緩和するために,行動対応型政策最適化(BSPO)手法を提案する。 BSPOは強化学習過程におけるOOD反応の発生を減少させる。実験の結果,BSPOは報酬過度最適化の防止においてベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-23T16:20:59Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。報酬形成はRLHFを安定させ、報酬ハッキングを部分的に軽減する。本稿では,報酬形成手法の総合的研究について述べる。提案手法は,報酬モデル自体に埋め込まれた潜在的嗜好を,強化学習の信号として活用する手法である。
論文参考訳（メタデータ） (2025-02-26T02:57:59Z)
Potential-Based Intrinsic Motivation: Preserving Optimality With Complex, Non-Markovian Shaping Rewards [2.2169849640518153]
内在的モチベーション(IM)報酬形成手法は、環境における最適な政策のセットを不注意に変更し、最適以下の行動を引き起こす。 PBRSの拡張として、より一般的な関数集合の下で最適なポリシーの集合を保存することを証明した。また,EM報酬をポテンシャルベース形式に変換するためのPBIM法とGRM法について述べる。
論文参考訳（メタデータ） (2024-10-16T03:39:26Z)
Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文参考訳（メタデータ） (2024-10-14T14:52:23Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文参考訳（メタデータ） (2023-09-04T09:09:54Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-07-14T18:18:02Z)
B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。 B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文参考訳（メタデータ） (2021-11-04T17:32:06Z)
Adversarial Inverse Reinforcement Learning for Mean Field Games [17.392418397388823]
平均場ゲーム(MFG)は、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
論文参考訳（メタデータ） (2021-04-29T21:03:49Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)
Energy-Based Imitation Learning [29.55675131809474]
我々は、エージェントが専門家によるデモンストレーションから最適なポリシーを回復しようとする模倣学習(IL)の一般的なシナリオに取り組む。本稿では,エネルギーベースモデル(EBM)の最近の進歩に触発されて,エネルギーベース・イミテーション・ラーニング(EBIL)というシンプルなILフレームワークを提案する。 EBIL は EBM と cccupancy measure matching の両概念を組み合わせており、理論解析により EBIL と Max-Entropy IRL (MaxEnt IRL) のアプローチが同じコインの2つの側面であることを明らかにする。
論文参考訳（メタデータ） (2020-04-20T15:49:35Z)
Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文参考訳（メタデータ） (2020-02-28T10:28:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。