論文の概要: Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning
- arxiv url: http://arxiv.org/abs/2207.09081v6
- Date: Wed, 17 May 2023 16:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 21:06:58.388639
- Title: Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning
- Title(参考訳): 変分因果推論による目標条件強化学習の一般化
- Authors: Wenhao Ding, Haohong Lin, Bo Li, Ding Zhao
- Abstract要約: Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
- 参考スコア(独自算出の注目度): 24.09547181095033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a pivotal component to attaining generalizable solutions in human
intelligence, reasoning provides great potential for reinforcement learning
(RL) agents' generalization towards varied goals by summarizing part-to-whole
arguments and discovering cause-and-effect relations. However, how to discover
and represent causalities remains a huge gap that hinders the development of
causal RL. In this paper, we augment Goal-Conditioned RL (GCRL) with Causal
Graph (CG), a structure built upon the relation between objects and events. We
novelly formulate the GCRL problem into variational likelihood maximization
with CG as latent variables. To optimize the derived objective, we propose a
framework with theoretical performance guarantees that alternates between two
steps: using interventional data to estimate the posterior of CG; using CG to
learn generalizable models and interpretable policies. Due to the lack of
public benchmarks that verify generalization capability under reasoning, we
design nine tasks and then empirically show the effectiveness of the proposed
method against five baselines on these tasks. Further theoretical analysis
shows that our performance improvement is attributed to the virtuous cycle of
causal discovery, transition modeling, and policy training, which aligns with
the experimental evidence in extensive ablation studies.
- Abstract(参考訳): ヒューマンインテリジェンスにおける一般化可能なソリューションを実現するための重要な要素として、推論は、部分対全体論を要約し、原因と効果の関係を発見することによって、強化学習(RL)エージェントの様々な目標への一般化に大きな可能性をもたらす。
しかし、因果関係を発見して表現する方法は依然として大きなギャップであり、因果関係rlの開発を妨げている。
本稿では、オブジェクトとイベントの関係に基づいて構築された構造であるCausal Graph(CG)を用いて、Gal-Conditioned RL(GCRL)を増強する。
我々はGCRL問題をCGを潜時変数として変分極大に定式化する。
提案手法は,CGの後部を推定するための介入データ,一般化可能なモデルと解釈可能なポリシーの学習,という2つのステップを交互に行う理論的性能保証付きフレームワークを提案する。
推論下での一般化能力を検証する公開ベンチマークが欠如していることから,提案手法の有効性を実証的に示すために9つのタスクを設計した。
さらなる理論的解析により、我々の業績改善は因果発見、遷移モデリング、政策訓練の活発なサイクルによるものであることが示され、これは広範囲なアブレーション研究における実験的証拠と一致する。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Towards Robust Recommendation via Decision Boundary-aware Graph Contrastive Learning [25.514007761856632]
グラフコントラスト学習(GCL)は、データ間隔によるバイアスの低減効果により、レコメンデータシステムにおいて注目を集めている。
これらの手法は, 動的学習過程における意味的不変性と難易度とのバランスをとるのに苦慮していると論じる。
本稿では,モデル能力の進化に伴い,コントラッシブペアのセマンティック不変性を効果的に維持し,動的に適応する新しいGCLベースのレコメンデーションフレームワークRGCLを提案する。
論文 参考訳(メタデータ) (2024-07-14T13:03:35Z) - Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning [26.34622544479565]
因果ダイナミクス学習は、強化学習における堅牢性を高めるための有望なアプローチである。
本稿では,微粒な因果構造を推定し,それらを予測に利用する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-06-05T13:13:58Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework
with Causal-Aware Policy [40.33036146207819]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - A Survey on Causal Representation Learning and Future Work for Medical
Image Analysis [0.0]
因果表現学習は近年,視覚理解における因果関係問題に対処するための有望な方向である。
本調査は、視界におけるCRLの最近の進歩を示す。
論文 参考訳(メタデータ) (2022-10-28T10:15:36Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。