論文の概要: OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data
- arxiv url: http://arxiv.org/abs/2510.15096v1
- Date: Thu, 16 Oct 2025 19:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.367754
- Title: OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data
- Title(参考訳): OpenEstimate: リアルタイムデータによる不確実性下での推論におけるLLMの評価
- Authors: Alana Renda, Jillian Ross, Michael Cafarella, Jacob Andreas,
- Abstract要約: 実世界の設定では、不完全な情報や不確実性の下での理由を言語モデルで補う必要がある。
OpenEstimateは、数値推定のLMを評価するためのベンチマークである。
LM-elicited priors は不正確で過度に信頼されることが多い。
- 参考スコア(独自算出の注目度): 42.23843583401247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world settings where language models (LMs) are deployed -- in domains spanning healthcare, finance, and other forms of knowledge work -- require models to grapple with incomplete information and reason under uncertainty. Yet most LM evaluations focus on problems with well-defined answers and success criteria. This gap exists in part because natural problems involving uncertainty are difficult to construct: given that LMs have access to most of the same knowledge as humans, it is non-trivial to design questions for which LMs will struggle to produce correct answers, but which humans can answer reliably. As a result, LM performance on reasoning under uncertainty remains poorly characterized. To address this gap, we introduce OpenEstimate, an extensible, multi-domain benchmark for evaluating LMs on numerical estimation tasks that require models to synthesize significant amounts of background information and express predictions as probabilistic priors. We assess these priors for accuracy and calibration, quantifying their usefulness relative to samples from the true distribution of interest. Across six frontier LMs, we find that LM-elicited priors are often inaccurate and overconfident. Performance improves modestly depending on how uncertainty is elicited from the model, but is largely unaffected by changes in sampling strategy, reasoning effort, or prompt design. The OpenEstimate benchmark thus offers a challenging evaluation for frontier LMs and a platform for developing models that are better at probabilistic estimation and reasoning under uncertainty.
- Abstract(参考訳): 言語モデル(LM)がデプロイされる現実の環境 – 医療、金融、その他の知識労働の分野 – には、不完全な情報や不確実性の下での理由に対処するモデルが必要です。
しかし、ほとんどのLM評価は、明確な答えと成功基準を持つ問題に焦点を当てている。
LMが人間と同じ知識のほとんどにアクセスできることを考えると、LMが正しい答えを生み出すのに苦労するが、人間が確実に答えられるような質問を設計するのは簡単ではない。
その結果、不確実性下での推論におけるLM性能は、まだ不十分である。
このギャップに対処するために,モデルが大量の背景情報を合成し,予測を確率的先行値として表現する必要がある数値推定タスク上で,LMを評価するための拡張可能なマルチドメインベンチマークであるOpenEstimateを紹介する。
本研究は,これらの先行指標を精度と校正のために評価し,関心の真の分布からサンプルに対する有用性を定量化する。
6つのフロンティア LM にまたがって、LM-elicited prior はしばしば不正確で過信である。
モデルから不確実性がどのように引き起こされるかによって、パフォーマンスは緩やかに改善されるが、サンプリング戦略の変更、推論の取り組み、あるいは迅速な設計の影響はほとんどない。
OpenEstimateベンチマークは、フロンティアLMに対する挑戦的な評価と、不確実性の下での確率的推定と推論に優れたモデルを開発するためのプラットフォームを提供する。
関連論文リスト
- Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。
様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models [41.67393607081513]
大きな言語モデル(LLM)は、しばしば、彼らが持っている事実の知識を正確に表現するのに苦労する。
知識境界を表現するために不確実性推定を利用するUAlignフレームワークを提案する。
提案したUAlign は LLM の能力を大幅に向上させ,既知の疑問に自信を持って答えることができることを示す。
論文 参考訳(メタデータ) (2024-12-16T14:14:27Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。
誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。
我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。