論文の概要: Confounded Causal Imitation Learning with Instrumental Variables
- arxiv url: http://arxiv.org/abs/2507.17309v1
- Date: Wed, 23 Jul 2025 08:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.916182
- Title: Confounded Causal Imitation Learning with Instrumental Variables
- Title(参考訳): 楽器変数を用いた因果模倣学習
- Authors: Yan Zeng, Shenglan Nie, Feng Xie, Libo Huang, Peng Wu, Zhi Geng,
- Abstract要約: 実演からの模倣学習は、通常、測定されていない変数の相反する効果に悩まされる。
有効なIV識別とポリシー最適化のための2段階の模倣学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 16.070797736247425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning from demonstrations usually suffers from the confounding effects of unmeasured variables (i.e., unmeasured confounders) on the states and actions. If ignoring them, a biased estimation of the policy would be entailed. To break up this confounding gap, in this paper, we take the best of the strong power of instrumental variables (IV) and propose a Confounded Causal Imitation Learning (C2L) model. This model accommodates confounders that influence actions across multiple timesteps, rather than being restricted to immediate temporal dependencies. We develop a two-stage imitation learning framework for valid IV identification and policy optimization. In particular, in the first stage, we construct a testing criterion based on the defined pseudo-variable, with which we achieve identifying a valid IV for the C2L models. Such a criterion entails the sufficient and necessary identifiability conditions for IV validity. In the second stage, with the identified IV, we propose two candidate policy learning approaches: one is based on a simulator, while the other is offline. Extensive experiments verified the effectiveness of identifying the valid IV as well as learning the policy.
- Abstract(参考訳): デモンストレーションからの模倣学習は、通常、状態や行動に対する未測定変数(すなわち、未測定の共同設立者)の矛盾した影響に悩まされる。
もし無視すれば、政策のバイアスのある見積もりが必要とされるだろう。
本稿では,このギャップを解消するために,器楽変数(IV)の強大なパワーを最大限に活用し,C2Lモデルを提案する。
このモデルは、瞬間的依存関係に制限されるのではなく、複数のタイムステップにまたがるアクションに影響を与える共同設立者に対応している。
有効なIV識別とポリシー最適化のための2段階の模倣学習フレームワークを開発した。
特に第1段階では、定義された擬変数に基づいてテスト基準を構築し、C2Lモデルの有効なIVを同定する。
このような基準は、IV の妥当性に対する十分かつ必要な識別可能性条件を必要とする。
第2段階では、特定されたIVを用いて、2つのポリシー学習手法を提案し、一方はシミュレータに基づいており、他方はオフラインである。
大規模な実験により、有効なIVの同定とポリシーの学習の有効性が検証された。
関連論文リスト
- Flow IV: Counterfactual Inference In Nonseparable Outcome Models Using Instrumental Variables [2.3213238782019316]
標準IVの仮定の下では、治療と結果における潜伏雑音が厳密に単調で連立ガウス的であるという仮定とともに、治療と成果の関係は観測データから一意に特定される。
これにより、非分離モデルにおいても反ファクト推論が可能となる。
本手法は,観測結果の精度を最大化するために正規化フローをトレーニングすることにより実現し,基礎となる結果関数の正確な回復を実証する。
論文 参考訳(メタデータ) (2025-08-02T11:24:03Z) - Disentangled Representation Learning for Causal Inference with Instruments [31.67220687652054]
既存のIVに基づく推定器は、システム内に2つ以上のIVが存在するなど、既知のIVまたは他の強い仮定を必要とする。
本稿では,変数がプロキシであるかを知らずに,システム内にIVプロキシが存在すると仮定する緩和要求について考察する。
本稿では,変分オートエンコーダ(VAE)を用いた不整合表現学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T22:18:48Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Learning Decision Policies with Instrumental Variables through Double Machine Learning [16.842233444365764]
データリッチな設定における意思決定ポリシーの学習における一般的な問題は、オフラインデータセットにおける急激な相関である。
2段階IV回帰のバイアスを低減する非線形IV回帰法であるDML-IVを提案する。
IV回帰ベンチマークでは、最先端のIV回帰法よりも優れており、楽器の存在下で高い性能のポリシーを学ぶ。
論文 参考訳(メタデータ) (2024-05-14T10:55:04Z) - Regularized DeepIV with Model Selection [72.17508967124081]
正規化DeepIV(RDIV)回帰は最小ノルムIV解に収束することができる。
我々の手法は現在の最先端の収束率と一致している。
論文 参考訳(メタデータ) (2024-03-07T05:38:56Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Confounder Balancing for Instrumental Variable Regression with Latent
Variable [29.288045682505615]
本稿では,未測定の共同設立者からの共謀効果と,IV回帰における観察された共同設立者の不均衡について検討する。
我々は、計測されていない共同設立者からバイアスを取り除き、観察された共同設立者の不均衡を取り除くために、共同設立者バランスIV回帰(CB-IV)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-18T03:13:53Z) - On the instrumental variable estimation with many weak and invalid
instruments [1.837552179215311]
楽器変数(IV)モデルにおける計算の基本的な問題点について検討する。
スパースペナルティ構造と等価な「スパース特性」を仮定し,サロゲートステップ同定法の利点を検証し,証明する。
スパース同定条件に整合した代理ステップ選択推定法を提案する。
論文 参考訳(メタデータ) (2022-07-07T01:31:34Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning [107.70165026669308]
オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーが学習される。
遷移力学が加法的非線形汎関数形式を持つようなマルコフ決定過程について検討する。
そこで本稿では,条件付きモーメント制限の原始的2次元再構成に基づく,証明可能なIVVIアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-19T13:01:40Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。