論文の概要: Likelihood Reward Redistribution
- arxiv url: http://arxiv.org/abs/2503.17409v1
- Date: Thu, 20 Mar 2025 20:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:33:43.276012
- Title: Likelihood Reward Redistribution
- Title(参考訳): likelihood‐reward reistribution
- Authors: Minheng Xiao, Zhenbang Jiao,
- Abstract要約: 本稿では,報酬再分配のためのEmphLikelihood Reward Redistribution (LRR) フレームワークを提案する。
ソフトアクター・クライブのような非政治的アルゴリズムと統合すると、LRRは密度が高く情報的な報奨信号を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In many practical reinforcement learning scenarios, feedback is provided only at the end of a long horizon, leading to sparse and delayed rewards. Existing reward redistribution methods typically assume that per-step rewards are independent, thus overlooking interdependencies among state--action pairs. In this paper, we propose a \emph{Likelihood Reward Redistribution} (LRR) framework that addresses this issue by modeling each per-step reward with a parametric probability distribution whose parameters depend on the state--action pair. By maximizing the likelihood of the observed episodic return via a leave-one-out (LOO) strategy that leverages the entire trajectory, our framework inherently introduces an uncertainty regularization term into the surrogate objective. Moreover, we show that the conventional mean squared error (MSE) loss for reward redistribution emerges as a special case of our likelihood framework when the uncertainty is fixed under the Gaussian distribution. When integrated with an off-policy algorithm such as Soft Actor-Critic, LRR yields dense and informative reward signals, resulting in superior sample efficiency and policy performance on Box-2d and MuJoCo benchmarks.
- Abstract(参考訳): 多くの実践的な強化学習シナリオでは、フィードバックは長い水平線の終わりにのみ提供され、スパースと遅延報酬につながる。
既存の報酬再分配法は、通常、ステップごとの報酬が独立したものであると仮定する。
本稿では,各ステップごとの報酬とパラメータが状態-作用対に依存するパラメトリック確率分布をモデル化することにより,この問題に対処する「emph{Likelihood Reward Redistribution} (LRR)」フレームワークを提案する。
本研究の枠組みは,全軌道を利用するLOO(Left-one-out)戦略によって観測されたエピソード回帰の可能性を最大化することにより,本質的に不確実な正規化項を代理目的に導入するものである。
さらに、ガウス分布の下で不確実性が固定された場合、報酬再分配のための従来の平均二乗誤差(MSE)損失が、我々の可能性フレームワークの特別な場合として現れることを示す。
ソフトアクター・クライブのような非政治的アルゴリズムと統合すると、LRRは密度の高い報奨信号を出力し、Box-2dとMuJoCoベンチマークのサンプリング効率とポリシー性能が向上する。
関連論文リスト
- Benign Overfitting in Out-of-Distribution Generalization of Linear Models [19.203753135860016]
我々は、アウト・オブ・ディストリビューション(OOD)体制における良心過剰の理解に向けて、最初の一歩を踏み出した。
我々は、標準的な隆起回帰において良性過剰適合が生じることを証明する非漸近保証を提供する。
また、より一般的な目標共分散行列の族についても理論的結果を示す。
論文 参考訳(メタデータ) (2024-12-19T02:47:39Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Delta-AI: Local objectives for amortized inference in sparse graphical models [64.5938437823851]
スパース確率的グラフィカルモデル(PGM)における補正推論のための新しいアルゴリズムを提案する。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
合成PGMからサンプリングし、スパース因子構造を持つ潜在変数モデルを訓練するための$Delta$-AIの有効性について説明する。
論文 参考訳(メタデータ) (2023-10-03T20:37:03Z) - Interpretable Reward Redistribution in Reinforcement Learning: A Causal
Approach [45.83200636718999]
強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。
我々は、因果的な観点から、状態と行動の貢献を明示的にモデル化し、解釈可能な報酬の再分配をもたらすことを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-28T21:51:38Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。