論文の概要: Causal Imitation Learning Under Measurement Error and Distribution Shift
- arxiv url: http://arxiv.org/abs/2601.22206v1
- Date: Thu, 29 Jan 2026 18:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.000738
- Title: Causal Imitation Learning Under Measurement Error and Distribution Shift
- Title(参考訳): 測定誤差と分布変化を考慮した因果模倣学習
- Authors: Shi Bo, AmirEmad Ghassami,
- Abstract要約: ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。
本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.038778620145853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study offline imitation learning (IL) when part of the decision-relevant state is observed only through noisy measurements and the distribution may change between training and deployment. Such settings induce spurious state-action correlations, so standard behavioral cloning (BC) -- whether conditioning on raw measurements or ignoring them -- can converge to systematically biased policies under distribution shift. We propose a general framework for IL under measurement error, inspired by explicitly modeling the causal relationships among the variables, yielding a target that retains a causal interpretation and is robust to distribution shift. Building on ideas from proximal causal inference, we introduce \texttt{CausIL}, which treats noisy state observations as proxy variables, and we provide identification conditions under which the target policy is recoverable from demonstrations without rewards or interactive expert queries. We develop estimators for both discrete and continuous state spaces; for continuous settings, we use an adversarial procedure over RKHS function classes to learn the required parameters. We evaluate \texttt{CausIL} on semi-simulated longitudinal data from the PhysioNet/Computing in Cardiology Challenge 2019 cohort and demonstrate improved robustness to distribution shift compared to BC baselines.
- Abstract(参考訳): ノイズ測定によってのみ決定関連状態が観察され,トレーニングとデプロイメントの間に分布が変化する場合,オフライン模倣学習(IL)について検討する。
このような設定は、刺激的な状態-作用相関を誘導するので、標準的な行動クローニング(BC) -- 生の測定を条件にするか、無視するか -- は、分布シフトの下で体系的に偏ったポリシーに収束する可能性がある。
本稿では,変数間の因果関係を明示的にモデル化し,因果解釈を保ち,分布シフトに頑健な目標を導出した,測定誤差下でのILの一般的なフレームワークを提案する。
近位因果推論のアイデアに基づいて,ノイズの多い状態の観測をプロキシ変数として扱う「texttt{CausIL}」を紹介した。
我々は、離散状態空間と連続状態空間の両方に対する推定器を開発し、連続的な設定では、RKHS関数クラス上の逆手順を用いて必要なパラメータを学習する。
The PhysioNet/Computing in Cardiology Challenge 2019 cohort から得られた半模擬長手データ上で \texttt{CausIL} を評価し, BC ベースラインと比較して分布変化に対するロバスト性の向上を実証した。
関連論文リスト
- Adversary-Free Counterfactual Prediction via Information-Regularized Representations [8.760019957506719]
本稿では,デコーダバイアス下での対実予測について検討し,数学的に基礎を成す情報理論的アプローチを提案する。
情報用語を上位にバウンドし、教師付き課題と組み合わせることで、安定的で、実証可能なトレーニング基準を導出する、トラクタブルな変動目標を導出する。
我々は,制御された数値シミュレーションと実世界の臨床データセットの評価を行い,最近の最先端のバランス,再重み付け,敵のベースラインと比較した。
論文 参考訳(メタデータ) (2025-10-17T09:49:04Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Flexible Nonparametric Inference for Causal Effects under the Front-Door Model [2.6900047294457683]
本研究では, 平均治療効果, 平均治療効果の両面から, 新規な1段階, 目標最小損失ベース推定装置を開発した。
我々の推定器は観測されたデータ分布のパラメータ化に基づいて構築され、メディエータ密度を完全に回避するアプローチを含む。
因果効果推定器の効率を向上させるためにこれらの制約をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。