論文の概要: Unbiased Prevalence Estimation with Multicalibrated LLMs
- arxiv url: http://arxiv.org/abs/2604.21549v1
- Date: Thu, 23 Apr 2026 11:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.460107
- Title: Unbiased Prevalence Estimation with Multicalibrated LLMs
- Title(参考訳): 多重校正LDMによる不偏値推定
- Authors: Fridolin Linder, Thomas Leeper, Daniel Haimovich, Niek Tax, Lorenzo Perini, Milan Vojnovic,
- Abstract要約: 不完全な測定装置を用いた集団におけるカテゴリーの有病率の推定は、科学、公衆衛生、オンライン信頼と安全に不可欠である。
既知のデバイスエラー率に対して標準的アプローチは正しいが、これらのレートは人口間で安定していると仮定する。
入力特徴に対して平均よりもキャリブレーション条件を強制するマルチキャリブレーションは、偏りのない精度推定に十分であることを示す。
- 参考スコア(独自算出の注目度): 12.36607716457992
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Estimating the prevalence of a category in a population using imperfect measurement devices (diagnostic tests, classifiers, or large language models) is fundamental to science, public health, and online trust and safety. Standard approaches correct for known device error rates but assume these rates remain stable across populations. We show this assumption fails under covariate shift and that multicalibration, which enforces calibration conditional on the input features rather than just on average, is sufficient for unbiased prevalence estimation under such shift. Standard calibration and quantification methods fail to provide this guarantee. Our work connects recent theoretical work on fairness to a longstanding measurement problem spanning nearly all academic disciplines. A simulation confirms that standard methods exhibit bias growing with shift magnitude, while a multicalibrated estimator maintains near-zero bias. While we focus the discussion mostly on LLMs, our theoretical results apply to any classification model. Two empirical applications -- estimating employment prevalence across U.S. states using the American Community Survey, and classifying political texts across four countries using an LLM -- demonstrate that multicalibration substantially reduces bias in practice, while highlighting that calibration data should cover the key feature dimensions along which target populations may differ.
- Abstract(参考訳): 不完全な測定装置(診断検査、分類器、または大きな言語モデル)を用いて、集団におけるカテゴリーの有病率を推定することは、科学、公衆衛生、オンライン信頼と安全の基礎である。
既知のデバイスエラー率に対して標準的アプローチは正しいが、これらのレートは人口間で安定していると仮定する。
この仮定は共変量シフトの下では失敗し、平均よりも入力特徴に対する校正条件を強制する多重校正は、そのようなシフトの下での偏りのない精度推定には十分であることを示す。
標準的な校正法や定量化法では、この保証は得られない。
我々の研究は、最近の公正に関する理論的研究と、ほぼすべての学術分野にまたがる長年にわたる測定問題とを結びつけている。
シミュレーションにより、標準手法はシフト等級でバイアスが大きくなるのに対して、マルチキャリブレーション推定器はほぼゼロのバイアスを保っていることが確認された。
議論は主にLLMに焦点をあてるが、理論的な結果はどんな分類モデルにも当てはまる。
米国コミュニティサーベイ(英語版)を用いて米国の州で雇用の頻度を推定し、LSMを使用して4カ国で政治的テキストを分類する2つの実証的応用は、マルチキャリブレーションが実践におけるバイアスを大幅に減らし、キャリブレーションデータがターゲットの人口が異なる可能性のある重要な特徴次元をカバーするべきであることを強調している。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Empirical Likelihood-Based Fairness Auditing: Distribution-Free Certification and Flagging [18.71249153088185]
リシビズム予測や人事自動選択といった高度な応用における機械学習モデルは、しばしば体系的な性能格差を示す。
本稿では,モデル性能の相違に対する頑健な統計的尺度を構築するための実験的可能性ベース(EL)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-28T05:36:19Z) - Multiclass Local Calibration With the Jensen-Shannon Distance [16.08047787133007]
マルチクラスキャリブレーションへの現在のアプローチは、入力間の距離の概念を欠いている。
これは特に、スパースインスタンスが偏りのある治療のリスクが最も高い場合の医療のような、ハイテイクな設定に関係している。
本稿では,予測確率とクラス周波数の局所推定値のアライメントを行うニューラルネットワークにおける局所キャリブレーションの実践的手法を提案する。
論文 参考訳(メタデータ) (2025-10-30T14:56:07Z) - Scalable Utility-Aware Multiclass Calibration [53.28176049547449]
ユーティリティキャリブレーション(英: Utility calibration)は、特定のユーティリティ関数に対するキャリブレーション誤差を測定する一般的なフレームワークである。
我々は、このフレームワークが既存のキャリブレーションメトリクスを統一し、再解釈する方法を実証する。
論文 参考訳(メタデータ) (2025-10-29T12:32:14Z) - Exposing and Mitigating Calibration Biases and Demographic Unfairness in MLLM Few-Shot In-Context Learning for Medical Image Classification [8.43909252072479]
マルチモーダル大言語モデル (MLLM) は、医療画像解析の文脈において、少数の文脈内学習を行う大きな可能性を秘めている。
医療画像分類のためのテキスト内学習におけるMLLMの予測と信頼性スコアの校正バイアスと人口統計学的不公平性に関する最初の調査を行った。
我々は、関連するバイアスを軽減するために、推論時キャリブレーション法であるCALINを紹介する。
論文 参考訳(メタデータ) (2025-06-29T15:37:17Z) - Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
顔認識システムの運用評価に焦点をあて,適用する。
論文 参考訳(メタデータ) (2024-09-03T14:19:38Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Evaluating Metrics for Bias in Word Embeddings [44.14639209617701]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z) - Intrinsic Bias Metrics Do Not Correlate with Application Bias [12.588713044749179]
本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。
異なるタスクと実験条件をカバーする数百のトレーニングモデルに対して,内在バイアスと外部バイアスの両方を測定した。
埋め込みスペースのデビア化の取り組みは、常に下流モデルバイアスの測定とペアリングされることを推奨し、追加のチャレンジセットと注釈付きテストデータの作成を通じて下流測定をより実現可能にするためのコミュニティの努力を高めることを提案します。
論文 参考訳(メタデータ) (2020-12-31T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。