論文の概要: Tracing the ongoing emergence of human-like reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.21299v1
- Date: Wed, 20 May 2026 15:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.751199
- Title: Tracing the ongoing emergence of human-like reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける人間的推論の出現の追跡
- Authors: Paolo Morosi, Nikoleta Pantelidou, Fritz Günther, Elena Pagliarini, Evelina Leivada,
- Abstract要約: 大規模言語モデルは、多くのタスクにおいて人間のようなパフォーマンスを示す。
人間を好むかどうかは不明。
人間は言語間の実践的推論を通して論理的推論を豊かにする。
- 参考スコア(独自算出の注目度): 0.13048920509133807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans effortlessly go beyond literal meanings: If you mow the lawn, I will give you fifty dollars, is typically understood as implying that the speaker will pay only if the lawn is mowed, whereas If you are hungry, there is pizza in the oven implies that pizza is available regardless of the hearers hunger. Large Language Models - LLMs - show human-like performance on many tasks, yet it remains unclear whether they reason like humans. To address this, we conducted a population-matching experiment assessing how twentyfive LLMs compute conditional inferences across four languages, compared to an equal number of humans per language. We find that humans enrich logical reasoning through pragmatic inferences across languages. Model behavior is more variable. Some LLMs perfectly follow the truth-table of conditionals but they ignore pragmatic inferences, while others deviate from the truth-table, adhering to a single interpretation across the board, thus reflecting accurate rule-based processing but not human-like reasoning. Overall, LLMs are accurate semantic operators, but fail to capture the pragmatic enrichments characteristic of human reasoning. Crucially, LLM accuracy is neither predicted nor boosted by open vs. closed status, training orientation, or architecture type, suggesting that pragmatic reasoning is still an emerging ability in the cognitive toolkit of artificial systems.
- Abstract(参考訳): 芝生を刈るなら50ドル、芝生を刈るならスピーカーは払う、と言うのが普通だが、空腹ならオーブンにピザがあるということは、聞き手の飢えに関係なくピザが手に入ることを意味している。
大規模言語モデル - LLMは、多くのタスクにおいて人間のようなパフォーマンスを示すが、それらが人間を好んでいるかどうかは不明だ。
そこで本研究では、4言語にまたがる条件推論を25のLLMがどのように計算するかを評価する集団マッチング実験を行った。
人間は言語間の実践的推論を通して論理的推論を豊かにする。
モデルの振る舞いはより可変である。
一部のLCMは条件文の真理表に完全に従うが、現実的な推論を無視するが、一方では真理表から逸脱し、ボード全体の単一の解釈に固執し、正確なルールベースの処理を反映するが、人間のような推論は反映しない。
全体として、LLMは正確な意味演算子であるが、人間の推論の特徴である実用的豊かさを捉えることができない。
重要な点として、LLMの精度は、オープンな状態とクローズドな状態、トレーニング指向、アーキテクチャタイプによって予測も向上もされない。
関連論文リスト
- On the Thinking-Language Modeling Gap in Large Language Models [68.83670974539108]
言語と思考のモデリングには大きなギャップがあることが示される。
本稿では,このギャップを実証し緩和するために,Language-of-Thoughts (LoT) と呼ばれる新しいプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-19T09:31:52Z) - Intermediate Languages Matter: Formal Choice Drives Neurosymbolic LLM Reasoning [50.99811144731619]
形式言語の選択は構文的および意味論的推論能力の両方に影響を及ぼすことを示す。
平均的な文脈認識エンコーディングはLCMの推論に役立つが、コメントやマークダウン構文を使うことによる明らかな影響はない、と結論付けている。
論文 参考訳(メタデータ) (2025-02-24T14:49:52Z) - Non-literal Understanding of Number Words by Language Models [33.24263583093367]
人間は自然に、文脈、世界知識、話者意図を組み合わせた、意味のない数字を解釈する。
大規模言語モデル (LLM) も同様に数字を解釈し, ハイパボラ効果と実効ハロ効果に着目した。
論文 参考訳(メタデータ) (2025-02-10T07:03:00Z) - Are LLMs good pragmatic speakers? [3.4113474745671923]
大規模言語モデル(LLM)は、自然言語のプラグマティクスを含むと仮定されたデータに基づいて訓練されているが、実際にはプラグマティクス話者のように振る舞うのか?
我々は,人間のコミュニケーションにおける実践的推論をモデル化するRational Speech Act (RSA) フレームワークを用いて,この問題に答えようとしている。
LLMのスコアはRSAのスコアと何らかの正の相関があるが、現実的な話者のように振る舞うという十分な証拠はない。
論文 参考訳(メタデータ) (2024-11-03T13:23:18Z) - Large Language Models Assume People are More Rational than We Really are [10.857040292234984]
AIが人と効果的にコミュニケーションするためには、意思決定の仕方を理解する必要があります。
以前の実証的な証拠は、これらの暗黙のモデルが正確であることを示唆しているようである。
人々の選択をシミュレートし、予測する場合は、実際にはそうではありません。
論文 参考訳(メタデータ) (2024-06-24T18:15:27Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Do Models Explain Themselves? Counterfactual Simulatability of Natural
Language Explanations [62.61495090463084]
大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。
そこで本研究では,人間による多種多様なファクトファクトに対して,モデルの出力を正確に推定できるかどうかを検証した。
LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-17T17:41:47Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。