論文の概要: Partial Identification under Missing Data Using Weak Shadow Variables from Pretrained Models
- arxiv url: http://arxiv.org/abs/2602.16061v1
- Date: Tue, 17 Feb 2026 22:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.455425
- Title: Partial Identification under Missing Data Using Weak Shadow Variables from Pretrained Models
- Title(参考訳): 事前学習モデルからの弱影変数を用いた欠測データの部分的同定
- Authors: Hongyu Chen, David Simchi-Levi, Ruoxuan Xiong,
- Abstract要約: ユーザフィードバックによる平均結果などの人口量の推定は,プラットフォーム評価や社会科学に不可欠である。
既存のアプローチは一般に、実際には利用できないかもしれない強いパラメトリックな仮定や分岐補助変数に依存している。
本研究では,一対の線形プログラムを解くことにより,推定値のシャープな境界を求める部分同定フレームワークを開発する。
- 参考スコア(独自算出の注目度): 19.367626631086214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating population quantities such as mean outcomes from user feedback is fundamental to platform evaluation and social science, yet feedback is often missing not at random (MNAR): users with stronger opinions are more likely to respond, so standard estimators are biased and the estimand is not identified without additional assumptions. Existing approaches typically rely on strong parametric assumptions or bespoke auxiliary variables that may be unavailable in practice. In this paper, we develop a partial identification framework in which sharp bounds on the estimand are obtained by solving a pair of linear programs whose constraints encode the observed data structure. This formulation naturally incorporates outcome predictions from pretrained models, including large language models (LLMs), as additional linear constraints that tighten the feasible set. We call these predictions weak shadow variables: they satisfy a conditional independence assumption with respect to missingness but need not meet the completeness conditions required by classical shadow-variable methods. When predictions are sufficiently informative, the bounds collapse to a point, recovering standard identification as a special case. In finite samples, to provide valid coverage of the identified set, we propose a set-expansion estimator that achieves slower-than-$\sqrt{n}$ convergence rate in the set-identified regime and the standard $\sqrt{n}$ rate under point identification. In simulations and semi-synthetic experiments on customer-service dialogues, we find that LLM predictions are often ill-conditioned for classical shadow-variable methods yet remain highly effective in our framework. They shrink identification intervals by 75--83\% while maintaining valid coverage under realistic MNAR mechanisms.
- Abstract(参考訳): ユーザフィードバックの平均値などの人口量の推定は,プラットフォーム評価や社会科学において基本的だが,フィードバックがランダムではない場合が多い(MNAR)。
既存のアプローチは一般に、実際には利用できないかもしれない強いパラメトリックな仮定や分岐補助変数に依存している。
本稿では,観測データ構造を符号化した一対の線形プログラムを解くことにより,推定値のシャープな境界を求める部分同定フレームワークを開発する。
この定式化は、大きな言語モデル(LLM)を含む事前訓練されたモデルによる結果予測を、実現可能な集合を締め付けるための線形制約として自然に組み入れている。
我々はこれらの予測を弱いシャドウ変数と呼び、それらは欠損に関して条件付き独立仮定を満たすが、古典的なシャドウ変数法で要求される完全性条件を満たす必要はない。
予測が十分に情報化されている場合、境界は1点に崩壊し、特別な場合として標準識別を回復する。
有限標本において、同定された集合の有効なカバレッジを提供するために、集合同定された状態における遅い-$\sqrt{n}$収束率と標準$\sqrt{n}$点同定の下での標準$\sqrt{n}$収束率を達成する集合拡大推定器を提案する。
顧客サービス対話のシミュレーションや半合成実験では、従来のシャドウ変数法ではLLM予測が不調な場合が多いが、我々のフレームワークでは高い効果が保たれている。
現実的なMNAR機構下では有効範囲を維持しつつ,識別間隔を75~83倍に縮小する。
関連論文リスト
- Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。
実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。
合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T17:52:12Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Principled Input-Output-Conditioned Post-Hoc Uncertainty Estimation for Regression Networks [1.4671424999873808]
不確実性は安全性に敏感なアプリケーションでは重要であるが、予測性能に悪影響を及ぼすため、市販のニューラルネットワークから排除されることが多い。
本稿では,従来の入力と凍結モデルの両方に補助モデルを適用することにより,回帰タスクにおけるポストホック不確実性推定のための理論的基盤となるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:13:27Z) - Epistemic Uncertainty in Conformal Scores: A Unified Approach [2.449909275410288]
等角予測法は、分布のない保証を持つ予測帯域を生成するが、不確実性を明示的に捉えることはできない。
モデルに依存しないアプローチである $texttEPICSCORE$ を導入する。
$texttEPICSCORE$は、限られたデータを持つ領域の予測間隔を適応的に拡張し、データが豊富であるコンパクト間隔を維持します。
論文 参考訳(メタデータ) (2025-02-10T19:42:54Z) - Beyond Conformal Predictors: Adaptive Conformal Inference with Confidence Predictors [1.3812010983144802]
本研究は,適応整形推論(ACI)の望ましい性質が整形予測器(CP)の使用を必要としないことを示す。
非互換信頼予測器(NCCP)の非交換データに対するACI使用時のCPに対する性能を実証的に検討した。
論文 参考訳(メタデータ) (2024-09-23T21:02:33Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Estimation and Applications of Quantiles in Deep Binary Classification [0.0]
チェック損失に基づく量子回帰は統計学において広く使われている推論パラダイムである。
二項分類設定におけるチェック損失の類似について考察する。
我々は、予測が信頼できるかどうかを判断するために使用できる個別信頼度スコアを開発する。
論文 参考訳(メタデータ) (2021-02-09T07:07:42Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。