論文の概要: Humans and LLMs Diverge on Probabilistic Inferences
- arxiv url: http://arxiv.org/abs/2602.23546v1
- Date: Thu, 26 Feb 2026 23:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.163994
- Title: Humans and LLMs Diverge on Probabilistic Inferences
- Title(参考訳): 確率的推論に基づく人間とLLMの多様性
- Authors: Gaurav Kamath, Sreenath Madathil, Sebastian Schuster, Marie-Catherine de Marneffe, Siva Reddy,
- Abstract要約: ProbCOPAは、英語で210個の手作り確率的推論のデータセットで、それぞれ25~30人の被験者による推測の可能性について注釈を付ける。
人間の反応は段階的に変化しており、データセットの推測の確率的判断が明らかになる。
これらの判断と8つの最先端推論LPMからの反応を比較することで、モデルが常に人間のような分布を生成できないことを示す。
- 参考スコア(独自算出の注目度): 25.525228660836024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human reasoning often involves working over limited information to arrive at probabilistic conclusions. In its simplest form, this involves making an inference that is not strictly entailed by a premise, but rather only likely given the premise. While reasoning LLMs have demonstrated strong performance on logical and mathematical tasks, their behavior on such open-ended, non-deterministic inferences remains largely unexplored. We introduce ProbCOPA, a dataset of 210 handcrafted probabilistic inferences in English, each annotated for inference likelihood by 25--30 human participants. We find that human responses are graded and varied, revealing probabilistic judgments of the inferences in our dataset. Comparing these judgments with responses from eight state-of-the-art reasoning LLMs, we show that models consistently fail to produce human-like distributions. Finally, analyzing LLM reasoning chains, we find evidence of a common reasoning pattern used to evaluate such inferences. Our findings reveal persistent differences between humans and LLMs, and underscore the need to evaluate reasoning beyond deterministic settings.
- Abstract(参考訳): 人間の推論はしばしば確率論的結論に達するために限られた情報を扱う。
最も単純な形式では、前提によって厳密に関係づけられるのではなく、前提にのみ従うような推論を行う。
推論 LLM は論理的および数学的タスクにおいて強い性能を示してきたが、そのようなオープンな非決定論的推論におけるそれらの振る舞いは、ほとんど未解明のままである。
ProbCOPAは、英語で210個の手作り確率的推論のデータセットであり、それぞれが25~30人の被験者による推測の可能性について注釈を付けたものである。
人間の反応は段階的に変化しており、データセットの推測の確率的判断が明らかになる。
これらの判断と8つの最先端推論LPMからの反応を比較することで、モデルが常に人間のような分布を生成できないことを示す。
最後に,LLM推論連鎖を解析したところ,そのような推論を評価するのによく用いられる推論パターンの証拠が見つかった。
以上の結果から,人間とLSMの持続的な差異が明らかとなり,決定論的設定を超えて推論を評価する必要性が浮き彫りになった。
関連論文リスト
- CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Reasoning Under Uncertainty: Exploring Probabilistic Reasoning Capabilities of LLMs [47.20307724127832]
我々は,大規模言語モデル(LLM)の推論能力について,初めて包括的な研究を行った。
我々は,3つの注意深く設計されたタスク,モード識別,最大推定,サンプル生成のモデルを評価する。
経験的評価を通じて、より小さなモデルと大きなモデルの間に明らかなパフォーマンスギャップがあることを実証する。
論文 参考訳(メタデータ) (2025-09-12T22:58:05Z) - Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - Logical forms complement probability in understanding language model (and human) performance [14.694876851134273]
この研究は、自然言語で論理的推論を行う大規模言語モデルの能力を体系的に調査する。
命題論理およびモーダル論理における仮説的および解離的シロジズムの制御されたデータセットを導入する。
両者の行動データを収集・比較することにより,人間とLLMの論理的推論性能の類似点と相違点を示す。
論文 参考訳(メタデータ) (2025-02-13T18:46:44Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。
実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - Does Reasoning Emerge? Examining the Probabilities of Causation in Large Language Models [6.922021128239465]
AIの最近の進歩は、大規模言語モデル(LLM)の能力によって推進されている。
本稿では,LLMが実世界の推論機構をいかに効果的に再現できるかを評価することを目的とした,理論的かつ実用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T15:19:11Z) - Reasoning over Uncertain Text by Generative Large Language Models [18.983753573277596]
本稿では,大言語モデル (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。
LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference dataset (BLInD)を紹介する。
我々は,Pythonのコード,確率的アルゴリズム,確率論的論理プログラミングなど,問題を異なる形式的表現にマッピングするいくつかのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-02-14T23:05:44Z) - Incoherent Probability Judgments in Large Language Models [4.307483901449801]
自己回帰型大言語モデル(LLM)による確率判断のコヒーレンスを評価する。
これらのモデルから得られる判断は、しばしば不整合であり、確率論の規則から人間のような体系的な逸脱を示す。
論文 参考訳(メタデータ) (2024-01-30T00:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。