論文の概要: Counterfactual Credit Assignment in Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.09464v2
- Date: Tue, 14 Dec 2021 13:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:37:59.685139
- Title: Counterfactual Credit Assignment in Model-Free Reinforcement Learning
- Title(参考訳): モデルレス強化学習における対物クレジット割り当て
- Authors: Thomas Mesnard, Th\'eophane Weber, Fabio Viola, Shantanu Thakoor, Alaa
Saade, Anna Harutyunyan, Will Dabney, Tom Stepleton, Nicolas Heess, Arthur
Guez, \'Eric Moulines, Marcus Hutter, Lars Buesing, R\'emi Munos
- Abstract要約: 強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
- 参考スコア(独自算出の注目度): 47.79277857377155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Credit assignment in reinforcement learning is the problem of measuring an
action's influence on future rewards. In particular, this requires separating
skill from luck, i.e. disentangling the effect of an action on rewards from
that of external factors and subsequent actions. To achieve this, we adapt the
notion of counterfactuals from causality theory to a model-free RL setup. The
key idea is to condition value functions on future events, by learning to
extract relevant information from a trajectory. We formulate a family of policy
gradient algorithms that use these future-conditional value functions as
baselines or critics, and show that they are provably low variance. To avoid
the potential bias from conditioning on future information, we constrain the
hindsight information to not contain information about the agent's actions. We
demonstrate the efficacy and validity of our algorithm on a number of
illustrative and challenging problems.
- Abstract(参考訳): 強化学習における信用割り当ては、将来の報酬に対する行動の影響を測定する問題である。
特に、これは運からスキルを分離すること、すなわち外部要因やその後の行動から報酬に対する行動の影響を遠ざける必要がある。
これを達成するために、因果理論からモデルフリーなRL設定への反事実の概念を適応する。
重要なアイデアは、軌道から関連する情報を抽出するために学習することで、将来のイベントに値関数を条件付けることである。
我々は、これらの将来の条件値関数をベースラインまたは批評家として使用するポリシー勾配アルゴリズムのファミリを定式化し、それらが確実に低分散であることを示す。
将来の情報に対する潜在的なバイアスを避けるため、後見情報をエージェントの行動に関する情報を含まないよう制限する。
提案アルゴリズムの有効性と有効性は,いくつかの図解的および難解な問題に対して示す。
関連論文リスト
- What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning [52.51430732904994]
強化学習問題では、エージェントはリターンを最大化しながら長期的な公正性を考慮する必要がある。
近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。
我々は、環境力学から生じる不平等を明示的に捉える、ダイナミックスフェアネスという新しい概念を導入する。
論文 参考訳(メタデータ) (2024-04-16T22:47:59Z) - Preserving Commonsense Knowledge from Pre-trained Language Models via
Causal Inference [20.5696436171006]
現存する研究の多くは破滅的な忘れ物であり、訓練済みの知識を無差別に保持している。
我々は因果グラフに微調整を行い、破滅的な忘れ物が事前訓練されたデータから欠落した因果関係にあることを発見した。
実験では,6つのコモンセンスQAデータセットに対して,最先端の微調整手法より優れていた。
論文 参考訳(メタデータ) (2023-06-19T09:06:44Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Learning Models for Actionable Recourse [31.30850378503406]
本研究では, リスクの高い個人に対して, 精度を犠牲にすることなく, 理論的に言論を保証するアルゴリズムを提案する。
実データに対する広範な実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-12T01:15:18Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z) - Transfer Reinforcement Learning under Unobserved Contextual Information [16.895704973433382]
本研究では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。
本研究では,デモンストレータのデータを用いて,遷移関数と報酬関数の因果境界を求める手法を開発した。
バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-09T22:00:04Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。