論文の概要: Prediction-Powered Inference Across Many Tasks for AI Evaluation & Social Science Research
- arxiv url: http://arxiv.org/abs/2605.29249v1
- Date: Thu, 28 May 2026 02:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.590112
- Title: Prediction-Powered Inference Across Many Tasks for AI Evaluation & Social Science Research
- Title(参考訳): AI評価と社会科学研究のための予測パワー推論
- Authors: Nicolas Emmenegger, Ellery Stahler, Chara Podimata,
- Abstract要約: 多くのアプリケーションは、多くの関連するタスクにまたがって統計的に妥当な推論を必要とするが、仮説当たりの高品質なラベルはわずかである。
本稿では,タスク固有の推論を保存しながら,関連タスクのラベル付きデータを用いてパワーを向上させる予測型推論フレームワークを提案する。
本研究では,ラベルが不足している場合の信頼区間幅を大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 6.716363754264257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications require statistically valid inference across many related tasks, while using only a handful of high-quality labels per hypothesis. In AI evaluation, these tasks may correspond to model behaviors across prompts, subgroups, or hypotheses; in social science surveys, they may correspond to related questions, populations, or measurement conditions. Prediction-powered inference (PPI) uses abundant but inexpensive proxy measurements to improve inference from limited, ground-truth labels, but commonly used methods treat tasks independently and therefore fail to exploit shared structure across related tasks. This limitation is especially important in settings where only a small number of labels are available per task. To address this issue, we introduce a multi-task prediction-powered inference framework that uses labeled data from related tasks to improve power while preserving task-specific inference. Our methods exploit the shared structure in the proxy-ground-truth relationship through cross-task recalibration, while retaining within-task rectification and power tuning to construct accurate point estimates and confidence intervals. We prove that efficiency gains beyond power-tuned PPI are only possible when the proxy-ground-truth relationship contains nonlinear structure; affine cross-task recalibrations are asymptotically equivalent to using the original proxy. We complement our theoretical findings with experiments on synthetic and semi-synthetic datasets, as well as a case study auditing language models on election-related information during the 2024 U.S. presidential election. Using a large human-annotation study, we show that cross-task recalibration can substantially reduce confidence interval widths when labels are scarce.
- Abstract(参考訳): 多くのアプリケーションは、多くの関連するタスクにまたがって統計的に妥当な推論を必要とするが、仮説当たりの高品質なラベルはわずかである。
AI評価では、これらのタスクはプロンプト、サブグループ、仮説をまたいだモデル行動に対応し、社会科学調査では、関連する質問、人口、または測定条件に対応できる。
予測駆動推論(英語版) (PPI) は、豊富なが安価なプロキシ測定を用いて、限られた基幹ラベルからの推論を改善するが、一般的に使われている手法はタスクを個別に扱うため、関連するタスク間の共有構造を利用できない。
この制限は、タスクごとに少数のラベルしか利用できない設定において特に重要である。
この問題に対処するために,タスク固有の推論を保存しながら,関連するタスクのラベル付きデータを用いて効率を向上させるマルチタスク予測型推論フレームワークを提案する。
提案手法は, 高精度な点推定と信頼区間を構築するために, タスク内整合とパワーチューニングを維持しながら, クロスタスク・リカレーションを通じて, プロキシ・グラウンド・トゥルース関係の共有構造を利用する。
電力調整されたPPIを超える効率向上は, プロキシ-地下構造関係が非線形構造を含む場合にのみ可能であり, アフィン・クロスタスクの校正は, 元のプロキシと漸近的に等価であることを示す。
我々は,2024年アメリカ合衆国大統領選挙における選挙関連情報に関する言語モデルを監査するケーススタディとともに,合成および半合成データセットに関する実験を補完する。
大規模な人体注釈研究を用いて,ラベルが不足している場合の信頼性区間幅を大幅に削減できることを示す。
関連論文リスト
- On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Selective Inference for Sparse Multitask Regression with Applications in
Neuroimaging [2.611153304251067]
本稿では、ニューロイメージングにおける一般的なマルチタスク問題に対処するための選択推論フレームワークを提案する。
我々のフレームワークは、選択イベントの洗練に基づいて、新しい推論条件を提供する。
我々は,選択推論を用いたマルチタスク学習により,単一タスク法よりも真の信号をより正確に復元できることをシミュレーションにより示す。
論文 参考訳(メタデータ) (2022-05-27T20:21:20Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - Mediators in Determining what Processing BERT Performs First [35.32217580058933]
我々は、予測の文脈長、すなわち、予測を行うのに必要な処理が最小限であるスパンの長さを考える。
コンテクスト長を制御できないことは,ネットワークの局所化パターンに矛盾する結論をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-13T17:58:52Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。