論文の概要: Adversary-Free Counterfactual Prediction via Information-Regularized Representations
- arxiv url: http://arxiv.org/abs/2510.15479v1
- Date: Fri, 17 Oct 2025 09:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.561216
- Title: Adversary-Free Counterfactual Prediction via Information-Regularized Representations
- Title(参考訳): 情報規則化表現による非逆対実予測
- Authors: Shiqin Tang, Rong Feng, Shuxin Zhuang, Hongzong Li, Youzhi Zhang,
- Abstract要約: 本稿では,デコーダバイアス下での対実予測について検討し,数学的に基礎を成す情報理論的アプローチを提案する。
情報用語を上位にバウンドし、教師付き課題と組み合わせることで、安定的で、実証可能なトレーニング基準を導出する、トラクタブルな変動目標を導出する。
我々は,制御された数値シミュレーションと実世界の臨床データセットの評価を行い,最近の最先端のバランス,再重み付け,敵のベースラインと比較した。
- 参考スコア(独自算出の注目度): 8.760019957506719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study counterfactual prediction under assignment bias and propose a mathematically grounded, information-theoretic approach that removes treatment-covariate dependence without adversarial training. Starting from a bound that links the counterfactual-factual risk gap to mutual information, we learn a stochastic representation Z that is predictive of outcomes while minimizing I(Z; T). We derive a tractable variational objective that upper-bounds the information term and couples it with a supervised decoder, yielding a stable, provably motivated training criterion. The framework extends naturally to dynamic settings by applying the information penalty to sequential representations at each decision time. We evaluate the method on controlled numerical simulations and a real-world clinical dataset, comparing against recent state-of-the-art balancing, reweighting, and adversarial baselines. Across metrics of likelihood, counterfactual error, and policy evaluation, our approach performs favorably while avoiding the training instabilities and tuning burden of adversarial schemes.
- Abstract(参考訳): 本研究では,代入バイアス下での対実予測について検討し,対向的訓練を伴わずに処理-共変量依存を除去する数学的基礎を持つ情報理論的手法を提案する。
事実-事実的リスクギャップを相互情報に結びつける境界から始め、I(Z; T)を最小化しながら結果を予測する確率的表現Zを学ぶ。
情報項を上位にバウンドし、それを教師付きデコーダと結合させることで、安定的で、確実に動機付けられたトレーニング基準が得られるような、トラクタブルな変動目標を導出する。
このフレームワークは、決定時間毎にシーケンシャルな表現に情報ペナルティを適用することで、動的設定に自然に拡張する。
我々は,制御された数値シミュレーションと実世界の臨床データセットの評価を行い,最近の最先端のバランス,再重み付け,敵のベースラインと比較した。
可能性, 反事実的誤り, および政策評価の指標を総合して, 本手法は, トレーニング不安定性を避けつつ, 敵のスキームの負担を軽減しつつ, 好適に機能する。
関連論文リスト
- Aligning the Evaluation of Probabilistic Predictions with Downstream Value [2.6636053598505307]
予測性能のみに基づくメトリクスは、しばしば現実世界の下流への影響の尺度から発散する。
本稿では、下流評価と整合したプロキシ評価関数を学習するためのデータ駆動手法を提案する。
我々のアプローチでは、ニューラルネットワークによってパラメータ化された重み付けされたスコアリングルールを利用して、下流タスクのパフォーマンスに合わせて重み付けが学習される。
論文 参考訳(メタデータ) (2025-08-25T17:41:27Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Post Reinforcement Learning Inference [20.521169740409263]
強化学習アルゴリズムによって収集されたデータを用いて推定と推定を行う。
この分散を安定化させるために適応重みを用いる重み付き一般化モーメント法(GMM)を提案する。
主な用途は、動的処理効果の推定と動的オフポリシー評価である。
論文 参考訳(メタデータ) (2023-02-17T12:53:15Z) - Doubly Robust Counterfactual Classification [1.8907108368038217]
本研究では,仮説的(事実とは対照的に)なシナリオ下での意思決定のための新しいツールとして,カウンターファクトの分類について検討する。
本稿では, 一般対物分類器のための2次ロバストな非パラメトリック推定器を提案する。
論文 参考訳(メタデータ) (2023-01-15T22:04:46Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。