論文の概要: Presupposition and Reasoning in Conditionals: A Theory-Based Study of Humans and LLMs
- arxiv url: http://arxiv.org/abs/2605.18352v1
- Date: Mon, 18 May 2026 13:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.61938
- Title: Presupposition and Reasoning in Conditionals: A Theory-Based Study of Humans and LLMs
- Title(参考訳): 条件の前提と推論:人間とLLMの理論に基づく研究
- Authors: Tara Azin, Yongan Yu, Raj Singh, Olessia Jouravlev,
- Abstract要約: 条件文の標準データセット上での人間の判断とLLM予測を比較した。
結果は,人間の判断に確率的・実用的手がかりが組み合わさっていることを示している。
人間の評価に最もよく適合するモデルは、コヒーレントな実用的推論を欠いていることが多い。
- 参考スコア(独自算出の注目度): 1.0599607477285324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Presupposition projection in conditionals is central to theories of meaning and pragmatics, yet it remains largely unevaluated in large language models. We address this gap through a parallel behavioral study comparing human judgments and LLM predictions on a normed dataset of conditional sentences that controls the relation between the antecedent and the projected presupposition. We collect likelihood ratings from 120 participants and four LLMs under matched contextual conditions. Results show that humans integrate probabilistic and pragmatic cues in their judgment, whereas LLMs show variable alignment with human patterns. Using a linguistically motivated checklist within an LLM-as-a-Judge framework, we further evaluate model reasoning. We observe models that best match human ratings often lack coherent pragmatic reasoning, while models with stronger reasoning produce less human-like judgments. These findings suggest that LLMs' performance on such tasks may result from surface pattern matching rather than pragmatic competence. Our findings highlight the importance of benchmarks grounded in linguistic theory for comparing humans and models.
- Abstract(参考訳): 条件付きにおける前提射影は、意味論と実用論の理論の中心であるが、大きな言語モデルでは評価されていない。
本研究では,先行詞と予測前置詞の関係を制御した条件文の規範的データセット上で,人間の判断とLLM予測を比較した並列行動学的研究を通して,このギャップに対処する。
一致した文脈条件下で120名の被験者と4名のLCMから高い評価を得た。
その結果、人間は確率的および実用的手がかりを判断に組み入れているのに対し、LLMは人間のパターンと可変的に一致していることがわかった。
LLM-as-a-Judgeフレームワークにおける言語的に動機付けられたチェックリストを用いて、モデル推論をさらに評価する。
人間の評価に最もよく適合するモデルはコヒーレントな推論を欠くことが多いが、強い推論を持つモデルは人間のような判断を下さない。
これらの結果から, LLMの性能は, 実用的能力よりも表面パターンマッチングによってもたらされる可能性が示唆された。
本研究は,人間とモデルを比較するための言語理論に基づくベンチマークの重要性を強調した。
関連論文リスト
- To Words and Beyond: Probing Large Language Models for Sentence-Level Psycholinguistic Norms of Memorability and Reading Times [4.5166266531313966]
大規模言語モデルは人間の判断と相関する心理言語学の規範を推定する。
我々はこの手法を文の暗記性や読解時間の未検討の特徴に拡張する。
論文 参考訳(メタデータ) (2026-03-12T16:10:27Z) - Humans and LLMs Diverge on Probabilistic Inferences [25.525228660836024]
ProbCOPAは、英語で210個の手作り確率的推論のデータセットで、それぞれ25~30人の被験者による推測の可能性について注釈を付ける。
人間の反応は段階的に変化しており、データセットの推測の確率的判断が明らかになる。
これらの判断と8つの最先端推論LPMからの反応を比較することで、モデルが常に人間のような分布を生成できないことを示す。
論文 参考訳(メタデータ) (2026-02-26T23:00:41Z) - Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility [7.183662547358301]
大規模言語モデルが人間に類似した言語を処理するかどうかを検討する。
いくつかのLCMは、生産と解釈の間に人間のような対称性を定量的に、質的に反映していることがわかった。
論文 参考訳(メタデータ) (2025-03-21T23:25:42Z) - Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。
実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - Bayesian Statistical Modeling with Predictors from LLMs [5.5711773076846365]
State of the Art Large Language Model (LLM)は、様々なベンチマークタスクで印象的なパフォーマンスを示している。
このことは、LLMから派生した情報の人間的類似性に関する疑問を提起する。
論文 参考訳(メタデータ) (2024-06-13T11:33:30Z) - A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。
このサンプリング行動が人間の意思決定と類似していることが示される。
統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。