論文の概要: Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.05783v1
- Date: Sun, 08 Dec 2024 02:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 23:11:44.020145
- Title: Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement Learning
- Title(参考訳): 因果強化学習におけるオフ政治評価のための双方向デコノミー
- Authors: Shuguang Yu, Shuxing Fang, Ruixin Peng, Zhengling Qi, Fan Zhou, Chengchun Shi,
- Abstract要約: 本稿では,因果強化学習におけるシステムダイナミクスをモデル化するための,二方向無測な共起仮定を提案する。
神経テンソルネットワークを考案し,計測されていない共同創設者とシステムダイナミクスの両方を同時に学習する2方向デコンファレンスアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 17.49812746668935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies off-policy evaluation (OPE) in the presence of unmeasured confounders. Inspired by the two-way fixed effects regression model widely used in the panel data literature, we propose a two-way unmeasured confounding assumption to model the system dynamics in causal reinforcement learning and develop a two-way deconfounder algorithm that devises a neural tensor network to simultaneously learn both the unmeasured confounders and the system dynamics, based on which a model-based estimator can be constructed for consistent policy value estimation. We illustrate the effectiveness of the proposed estimator through theoretical results and numerical experiments.
- Abstract(参考訳): 本稿では,非計測的共同設立者の存在下での外部政策評価(OPE)について検討する。
パネルデータに広く用いられている2方向固定効果回帰モデルに着想を得て、因果強化学習におけるシステムダイナミクスをモデル化するための2方向非計測共生仮定を提案し、ニューラルネットワークを考案し、非測定共生とシステムダイナミクスの両方を同時に学習し、モデルに基づく推定器を一貫したポリシー値推定のために構築できる2方向非計測除算アルゴリズムを開発した。
理論的結果と数値実験により提案した推定器の有効性について述べる。
関連論文リスト
- Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。
モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。
しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文 参考訳(メタデータ) (2025-03-03T04:51:40Z) - Imitation Learning from Observations: An Autoregressive Mixture of Experts Approach [2.4427666827706074]
本稿では,観察から得られた模倣学習の新たなアプローチとして,専門家モデルの自己回帰混合を,その基礎となる方針に適合させる手法を提案する。
提案手法の有効性を,人間の実演から収集した2つの自律走行データセットを用いて検証した。
論文 参考訳(メタデータ) (2024-11-12T22:56:28Z) - Self-Improving Interference Management Based on Deep Learning With
Uncertainty Quantification [10.403513606082067]
本稿では,無線通信に適した自己改善型干渉管理フレームワークを提案する。
提案手法は,従来の最適化アルゴリズムに固有の計算課題に対処する。
私たちのフレームワークのブレークスルーは、データ駆動モデルに固有の制限を認識することです。
論文 参考訳(メタデータ) (2024-01-24T03:28:48Z) - Enhancing Scalability in Recommender Systems through Lottery Ticket
Hypothesis and Knowledge Distillation-based Neural Network Pruning [1.3654846342364308]
本研究では、ニューラルネットワークの効率的なプルーニングを目的とした革新的なアプローチを導入し、エッジデバイスへの展開に特に焦点をあてる。
本手法は,LTH(Lottery Ticket hypothesis)とKD(Knowledge Distillation)フレームワークを統合することで,3つの異なるプルーニングモデルの定式化を実現する。
幸いなことに、我々のアプローチはGPU計算能力の最大66.67%を削減した。
論文 参考訳(メタデータ) (2024-01-19T04:17:50Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。