論文の概要: Multiple-Prediction-Powered Inference
- arxiv url: http://arxiv.org/abs/2603.27414v1
- Date: Sat, 28 Mar 2026 21:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.946083
- Title: Multiple-Prediction-Powered Inference
- Title(参考訳): マルチプレディション駆動推論
- Authors: Charlie Cowen-Breen, Alekh Agarwal, Stephen Bates, William W. Cohen, Jacob Eisenstein, Amir Globerson, Adam Fisch,
- Abstract要約: この研究は、MultiPPI推定器のミニマックス最適性、有限サンプル性能、正規性に関する理論的保証を提供する。
我々は,MultiPPIが既存のベースラインよりも低い推定誤差を実現することを示す。
- 参考スコア(独自算出の注目度): 57.30769275944024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Statistical estimation often involves tradeoffs between expensive, high-quality measurements and a variety of lower-quality proxies. We introduce Multiple-Prediction-Powered Inference (MultiPPI): a general framework for constructing statistically efficient estimates by optimally allocating resources across these diverse data sources. This work provides theoretical guarantees about the minimax optimality, finite-sample performance, and asymptotic normality of the MultiPPI estimator. Through experiments across three diverse large language model (LLM) evaluation scenarios, we show that MultiPPI consistently achieves lower estimation error than existing baselines. This advantage stems from its budget-adaptive allocation strategy, which strategically combines subsets of models by learning their complex cost and correlation structures.
- Abstract(参考訳): 統計的推定はしばしば、高価で高品質な測定と様々な低品質なプロキシの間のトレードオフを伴う。
我々は、これらの多様なデータソースにリソースを最適に割り当てることで、統計的に効率的な見積もりを構築するための一般的なフレームワークであるMultiPPI(MultiPPI)を紹介した。
この研究は、MultiPPI推定器のミニマックス最適性、有限サンプル性能、漸近正規性に関する理論的保証を提供する。
3つの多種多言語モデル(LLM)評価シナリオの実験を通して,MultiPPIは既存のベースラインよりも低い推定誤差を連続的に達成していることを示す。
この利点は、複雑なコストと相関構造を学ぶことによって、モデルのサブセットを戦略的に組み合わせた予算適応型のアロケーション戦略に由来する。
関連論文リスト
- MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Towards Universal Debiasing for Language Models-based Tabular Data Generation [16.31419748401203]
我々は,グループレベルの依存性を最小限に抑える汎用的デバイアスフレームワークを導入し,有利属性と保護属性の相互情報を同時に低減する。
当社のフレームワークは公平性とユーティリティのバランスを効果的に保ち、高度アプリケーションでデバイアスを行うためのスケーラブルで実用的なソリューションを提供します。
論文 参考訳(メタデータ) (2025-09-20T00:06:53Z) - Generative Distribution Prediction: A Unified Approach to Multimodal Learning [4.3108820946281945]
本稿では、構造的および非構造的モダリティ間の予測性能を高めるために、生成分布予測(GDP)を導入する。
GDPはモデルに依存しず、どんな高忠実な生成モデルとも互換性があり、ドメイン適応のためのトランスファーラーニングをサポートする。
我々は,4つの教師付き学習課題(タブラルデータ予測,質問応答,イメージキャプション,適応的量子回帰)におけるGDPの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2025-02-10T22:30:35Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking [21.23500484100963]
最適輸送の枠組みの下で, ほぼ優位性をスムーズなコストで評価する統計モデルを導入する。
また、Sinkhornアルゴリズムを用いた仮説テストフレームワークと効率的な実装を提案する。
複数のメトリクスで評価された大規模言語モデルの比較とベンチマークを行う方法について紹介する。
論文 参考訳(メタデータ) (2024-06-10T16:14:50Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。