論文の概要: Interpretable Reward Redistribution in Reinforcement Learning: A Causal
Approach
- arxiv url: http://arxiv.org/abs/2305.18427v2
- Date: Mon, 25 Sep 2023 23:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 17:45:05.062978
- Title: Interpretable Reward Redistribution in Reinforcement Learning: A Causal
Approach
- Title(参考訳): 強化学習における解釈可能な報酬再分配:因果的アプローチ
- Authors: Yudi Zhang, Yali Du, Biwei Huang, Ziyan Wang, Jun Wang, Meng Fang,
Mykola Pechenizkiy
- Abstract要約: 強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。
我々は、因果的な観点から、状態と行動の貢献を明示的にモデル化し、解釈可能な報酬の再分配をもたらすことを提案する。
- 参考スコア(独自算出の注目度): 45.83200636718999
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A major challenge in reinforcement learning is to determine which
state-action pairs are responsible for future rewards that are delayed. Reward
redistribution serves as a solution to re-assign credits for each time step
from observed sequences. While the majority of current approaches construct the
reward redistribution in an uninterpretable manner, we propose to explicitly
model the contributions of state and action from a causal perspective,
resulting in an interpretable reward redistribution and preserving policy
invariance. In this paper, we start by studying the role of causal generative
models in reward redistribution by characterizing the generation of Markovian
rewards and trajectory-wise long-term return and further propose a framework,
called Generative Return Decomposition (GRD), for policy optimization in
delayed reward scenarios. Specifically, GRD first identifies the unobservable
Markovian rewards and causal relations in the generative process. Then, GRD
makes use of the identified causal generative model to form a compact
representation to train policy over the most favorable subspace of the state
space of the agent. Theoretically, we show that the unobservable Markovian
reward function is identifiable, as well as the underlying causal structure and
causal models. Experimental results show that our method outperforms
state-of-the-art methods and the provided visualization further demonstrates
the interpretability of our method. The source code will be released at
\href{https://github.com/ReedZyd/GRD_NeurIPS2023}{https://github.com/ReedZyd/GRD\_NeurIPS2023}.
- Abstract(参考訳): 強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。
リワード再分配は、観測されたシーケンスから各ステップごとにクレジットを割り当てる解決策として機能する。
現状のアプローチの大部分は, 報酬再分配を解釈不能な方法で構築するが, 因果的観点から, 状態と行動の貢献を明示的にモデル化し, 解釈不能な報酬再分配と政策不変性を維持することを提案する。
本稿では,報酬再分配における因果生成モデルの役割について,マルコフ報酬の生成とトラジェクティブ・ワイド・リターンを特徴付けることによって検討することから始め,遅延報酬シナリオにおける政策最適化のために,GRD(Generative Return Decomposition)と呼ばれるフレームワークを提案する。
具体的には、GRDはまず、生成過程における観測不可能なマルコフ報酬と因果関係を識別する。
そして、GRDは同定された因果生成モデルを用いて、エージェントの状態空間の最も好ましい部分空間上のポリシーを訓練するためのコンパクトな表現を形成する。
理論的には、観測不能なマルコフ報酬関数は、基礎となる因果構造や因果モデルと同様に識別可能である。
実験結果から,本手法は最先端の手法よりも優れており,その可視化によりさらに解釈性が示された。
ソースコードは \href{https://github.com/ReedZyd/GRD_NeurIPS2023}{https://github.com/ReedZyd/GRD\_NeurIPS2023} で公開される。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Delayed Rewards Calibration via Reward Empirical Sufficiency [11.089718301262433]
分類の観点から着想を得た遅延報酬キャリブレーションパラダイムを提案する。
我々は、分布内の状態ベクトルがエージェントに信号を報奨する経験的な十分な分布を定義します。
純度訓練された分類器は、分布を取得し、校正された報酬を生成するように設計されている。
論文 参考訳(メタデータ) (2021-02-21T06:42:31Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。