論文の概要: Reasoning Under Uncertainty: Exploring Probabilistic Reasoning Capabilities of LLMs
- arxiv url: http://arxiv.org/abs/2509.10739v1
- Date: Fri, 12 Sep 2025 22:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.756545
- Title: Reasoning Under Uncertainty: Exploring Probabilistic Reasoning Capabilities of LLMs
- Title(参考訳): 不確実性下における推論: LLMの確率論的推論能力を探る
- Authors: Mobina Pournemat, Keivan Rezaei, Gaurang Sriramanan, Arman Zarei, Jiaxiang Fu, Yang Wang, Hamid Eghbalzadeh, Soheil Feizi,
- Abstract要約: 我々は,大規模言語モデル(LLM)の推論能力について,初めて包括的な研究を行った。
我々は,3つの注意深く設計されたタスク,モード識別,最大推定,サンプル生成のモデルを評価する。
経験的評価を通じて、より小さなモデルと大きなモデルの間に明らかなパフォーマンスギャップがあることを実証する。
- 参考スコア(独自算出の注目度): 47.20307724127832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite widespread success in language understanding and generation, large language models (LLMs) exhibit unclear and often inconsistent behavior when faced with tasks that require probabilistic reasoning. In this work, we present the first comprehensive study of the reasoning capabilities of LLMs over explicit discrete probability distributions. Given observations from a probability distribution, we evaluate models on three carefully designed tasks, mode identification, maximum likelihood estimation, and sample generation, by prompting them to provide responses to queries about either the joint distribution or its conditionals. These tasks thus probe a range of probabilistic skills, including frequency analysis, marginalization, and generative behavior. Through comprehensive empirical evaluations, we demonstrate that there exists a clear performance gap between smaller and larger models, with the latter demonstrating stronger inference and surprising capabilities in sample generation. Furthermore, our investigations reveal notable limitations, including sensitivity to variations in the notation utilized to represent probabilistic outcomes and performance degradation of over 60% as context length increases. Together, our results provide a detailed understanding of the probabilistic reasoning abilities of LLMs and identify key directions for future improvement.
- Abstract(参考訳): 言語理解と生成において広く成功したにもかかわらず、大きな言語モデル(LLM)は、確率論的推論を必要とするタスクに直面した際、不明瞭でしばしば矛盾する振る舞いを示す。
本研究では, 離散確率分布に対するLSMの推論能力について, 初めて包括的研究を行った。
確率分布の観測から, 3つの注意深いタスク, モード識別, 最大推定, サンプル生成のモデルを評価する。
これらのタスクは、周波数分析、限界化、生成行動など、様々な確率的スキルを探索する。
総合的な経験的評価を通じて、より小さなモデルと大規模モデルの間に明らかな性能ギャップが存在し、後者はサンプル生成においてより強い推論と驚くべき能力を示す。
さらに, 文脈長の増加に伴い, 確率的結果を表すために用いた表記法の変化に対する感受性や, 60%以上の性能低下など, 顕著な限界を明らかにした。
本研究は,LLMの確率論的推論能力の詳細な理解と,今後の改善に向けた重要な方向性を明らかにするものである。
関連論文リスト
- Extracting Probabilistic Knowledge from Large Language Models for Bayesian Network Parameterization [22.286144400569007]
ベイジアンネットワーク(BN)構築におけるLLM(Large Language Models)の可能性について,ドメインエキスパートの事前の近似による検討を行った。
医療からファイナンスまで80の公開ベイズネットワークの実験は、事象の条件付き確率についてLLMに問い合わせることが有意義な結果をもたらすことを実証している。
論文 参考訳(メタデータ) (2025-05-21T18:15:05Z) - Always Tell Me The Odds: Fine-grained Conditional Probability Estimation [37.950889606305836]
文脈条件付き命題のきめ細かい確率推定のための最先端モデルを提案する。
提案手法は,既存の微調整法とプロンプト法を大きなマージンで一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-02T21:33:18Z) - Exploring the Potential for Large Language Models to Demonstrate Rational Probabilistic Beliefs [12.489784979345654]
大規模言語モデル(LLM)の現在のバージョンには,確率論的信念の合理的かつ一貫性のある表現が欠如していることが示されている。
確率論的推論の基本的な性質に固執するLLMの能力を測定するために, 不確実性定量化のための確立された手法を適用した。
論文 参考訳(メタデータ) (2025-04-18T11:50:30Z) - Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers [13.644277507363036]
Revealed Beliefは,不確実性を考慮した推論を必要とするタスクに対して,Large Language Models (LLMs)を評価する評価フレームワークである。
以上の結果から,LSMは正しい回答をしばしば述べるが,Revealed Beliefは確率質量を不整合に割り当てることが多く,体系的な偏見を示し,新しい証拠が提示された時にその信念を適切に更新することができないことが示唆された。
論文 参考訳(メタデータ) (2024-06-21T08:56:35Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - Reasoning over Uncertain Text by Generative Large Language Models [18.983753573277596]
本稿では,大言語モデル (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。
LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference dataset (BLInD)を紹介する。
我々は,Pythonのコード,確率的アルゴリズム,確率論的論理プログラミングなど,問題を異なる形式的表現にマッピングするいくつかのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-02-14T23:05:44Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。