論文の概要: Bayesian Elicitation with LLMs: Model Size Helps, Extra "Reasoning" Doesn't Always
- arxiv url: http://arxiv.org/abs/2604.01896v1
- Date: Thu, 02 Apr 2026 11:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.697424
- Title: Bayesian Elicitation with LLMs: Model Size Helps, Extra "Reasoning" Doesn't Always
- Title(参考訳): LLMによるベイズ的励振:モデルサイズヘルプ、余剰な「推論」はいつもそうではない
- Authors: Luka Hobor, Mario Brcic, Mihael Kovac, Kristijan Poje,
- Abstract要約: 大規模言語モデル (LLM) は、未知の量と関連する不確実性を推定するための人間の専門家の代替として提案されている。
我々は、健康率、性格特性分布、労働市場統計など、11のLCMに人口統計を推定するよう求め、これを検証した。
が結果を改善するかどうかをテストするために、各モデルの推論の取り組みを変える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been proposed as alternatives to human experts for estimating unknown quantities with associated uncertainty, a process known as Bayesian elicitation. We test this by asking eleven LLMs to estimate population statistics, such as health prevalence rates, personality trait distributions, and labor market figures, and to express their uncertainty as 95\% credible intervals. We vary each model's reasoning effort (low, medium, high) to test whether more "thinking" improves results. Our findings reveal three key results. First, larger, more capable models produce more accurate estimates, but increasing reasoning effort provides no consistent benefit. Second, all models are severely overconfident: their 95\% intervals contain the true value only 9--44\% of the time, far below the expected 95\%. Third, a statistical recalibration technique called conformal prediction can correct this overconfidence, expanding the intervals to achieve the intended coverage. In a preliminary experiment, giving models web search access degraded predictions for already-accurate models, while modestly improving predictions for weaker ones. Models performed well on commonly discussed topics but struggled with specialized health data. These results indicate that LLM uncertainty estimates require statistical correction before they can be used in decision-making.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、未知の量と関連する不確実性を推定するための人間の専門家の代替として提案されている。
我々は、11のLCMに対して、健康率、性格特性分布、労働市場の数字などの人口統計を推定し、その不確実性を95%の信頼区間で表すことにより、これを検証した。
が結果を改善するかどうかをテストするために、各モデルの推論の取り組み(低、中、高)を変えます。
以上の結果から3つの重要な結果が得られた。
第一に、より大きく、より有能なモデルの方が、より正確な見積もりを生み出すが、推論の努力の増加は、一貫した利益を与えない。
第2に、すべてのモデルは極めて過度に信頼されており、その95\%間隔は、期待される95\%よりもはるかに低い9-44\%の真の値しか含まない。
第三に、共形予測と呼ばれる統計的リカレーション手法は、この過信を補正し、意図したカバレッジを達成するために間隔を広げる。
予備実験では、Web検索アクセスが既に正確なモデルの予測を劣化させ、弱いモデルの予測を緩やかに改善した。
モデルは一般的に議論されているトピックでうまく機能したが、専門的な健康データに苦しんだ。
これらの結果から, LLMの不確実性推定には, 決定に先立って統計的補正が必要であることが示唆された。
関連論文リスト
- Variational Visual Question Answering for Uncertainty-Aware Selective Prediction [17.353372524615363]
VQA(Visual Question Answering)において,変分ベイズの有効性と競争力を示す。
この手法は校正を改善し、VQAとビジュアル推論の選択的予測に有意な利得を与える。
さらに,予測のばらつきを考慮し,標準サンプル平均値よりも優れたリスク逆セレクタを提案する。
論文 参考訳(メタデータ) (2025-05-14T17:40:22Z) - Always Tell Me The Odds: Fine-grained Conditional Probability Estimation [37.950889606305836]
文脈条件付き命題のきめ細かい確率推定のための最先端モデルを提案する。
提案手法は,既存の微調整法とプロンプト法を大きなマージンで一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-02T21:33:18Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [65.21599711087538]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Efficient Normalized Conformal Prediction and Uncertainty Quantification
for Anti-Cancer Drug Sensitivity Prediction with Deep Regression Forests [0.0]
予測間隔で機械学習モデルをペアリングするための有望な方法として、コンフォーマル予測が登場した。
本研究では,深部回帰林から得られた分散度を算出し,各試料の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T19:09:53Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Usable Region Estimate for Assessing Practical Usability of Medical
Image Segmentation Models [32.56957759180135]
医療画像セグメンテーションモデルの実用的ユーザビリティを定量的に測定することを目的としている。
まず、予測者の信頼度がランクの正確度スコアとどのように相関しているかを推定する尺度であるCCRC(Correctness-Confidence Rank correlation)を提案する。
次に、予測の正しさと信頼度を同時に定量化するURE(Usable Region Estimate)を提案する。
論文 参考訳(メタデータ) (2022-07-01T02:33:44Z) - Prediction Confidence from Neighbors [0.0]
機械学習(ML)モデルがOoD(out-of-distribution)サンプルから正しい予測を抽出することができないことは、重要なアプリケーションにMLを適用する上で大きな障害となる。
特徴空間距離は予測に自信を与える有意義な尺度であることを示す。
これにより、重要なアプリケーションにおけるモデルの早期かつ安全なデプロイが可能になり、常に変化する条件下でのモデルのデプロイには不可欠である。
論文 参考訳(メタデータ) (2020-03-31T09:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。