論文の概要: Episodic Return Decomposition by Difference of Implicitly Assigned
Sub-Trajectory Reward
- arxiv url: http://arxiv.org/abs/2312.10642v1
- Date: Sun, 17 Dec 2023 07:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:20:08.765217
- Title: Episodic Return Decomposition by Difference of Implicitly Assigned
Sub-Trajectory Reward
- Title(参考訳): 暗黙的に割り当てられたサブトラック報酬の差によるエピソディック回帰分解
- Authors: Haoxin Lin, Hongqiu Wu, Jiaji Zhang, Yihao Sun, Junyin Ye, Yang Yu
- Abstract要約: 本稿では,ダイアスターと呼ばれる新しいエピソード回帰分解法を提案する。
ダイアスターはエピソード報酬を任意のカットポイントで2つの分割されたサブトラジェクトリのクレジットに分解する。
実験結果から,本手法は試料効率と性能の両面から従来の最先端手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 8.445578144906415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world decision-making problems are usually accompanied by delayed
rewards, which affects the sample efficiency of Reinforcement Learning,
especially in the extremely delayed case where the only feedback is the
episodic reward obtained at the end of an episode. Episodic return
decomposition is a promising way to deal with the episodic-reward setting.
Several corresponding algorithms have shown remarkable effectiveness of the
learned step-wise proxy rewards from return decomposition. However, these
existing methods lack either attribution or representation capacity, leading to
inefficient decomposition in the case of long-term episodes. In this paper, we
propose a novel episodic return decomposition method called Diaster (Difference
of implicitly assigned sub-trajectory reward). Diaster decomposes any episodic
reward into credits of two divided sub-trajectories at any cut point, and the
step-wise proxy rewards come from differences in expectation. We theoretically
and empirically verify that the decomposed proxy reward function can guide the
policy to be nearly optimal. Experimental results show that our method
outperforms previous state-of-the-art methods in terms of both sample
efficiency and performance.
- Abstract(参考訳): 実世界の意思決定問題は、通常遅延報酬を伴うが、これは強化学習のサンプル効率に影響を与える。
エピソード回帰分解は、エピソード回帰設定を扱うための有望な方法である。
いくつかのアルゴリズムは、戻り分解から学習したステップワイドプロキシ報酬の顕著な効果を示した。
しかし、これらの既存手法は属性や表現能力に欠けており、長期エピソードでは非効率に分解される。
本稿では,Diaster(暗黙的に割り当てられたサブトラジェクトリ報酬の差)と呼ばれる新しいエピソード回帰分解法を提案する。
ダイアスターは、任意のカットポイントにおいて2つの分割されたサブトラジェクトリのクレジットにエピソード報酬を分解し、ステップワイドのプロキシ報酬は期待の差から生じる。
我々は理論的および実証的に、分解されたプロキシ報酬関数がポリシーをほぼ最適に導くことができることを検証する。
実験の結果,本手法は試料効率と性能の両面で従来の最先端手法よりも優れていた。
関連論文リスト
- Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - STAS: Spatial-Temporal Return Decomposition for Multi-agent
Reinforcement Learning [10.102447181869005]
本研究では,時間次元と空間次元の両方でクレジット代入を学習する新しい手法を提案する。
提案手法は, 時間的信用を効果的に割り当て, 最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-15T10:09:03Z) - Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。
本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文 参考訳(メタデータ) (2023-03-01T16:22:22Z) - Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。
CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。
本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文 参考訳(メタデータ) (2022-10-13T04:26:06Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。