論文の概要: Conditional and Modal Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17169v2
- Date: Thu, 4 Jul 2024 18:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:13:01.980703
- Title: Conditional and Modal Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける条件とモーダル推論
- Authors: Wesley H. Holliday, Matthew Mandelkern, Cedegao E. Zhang,
- Abstract要約: 205大言語モデルが論理的に正しい推論と誤った推論を区別できる範囲を探索する。
GPT-4 モデルファミリー以外はすべて条件付きで基本的なミスを犯すことが多い。
ほぼ全てのモデルは、人間の判断と一致しない文献で広く議論されているある種の複雑な条件推論に対する答えを与える。
- 参考スコア(独自算出の注目度): 1.999925939110439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning abilities of large language models (LLMs) are the topic of a growing body of research in AI and cognitive science. In this paper, we probe the extent to which twenty-five LLMs are able to distinguish logically correct inferences from logically fallacious ones. We focus on inference patterns involving conditionals (e.g., 'If Ann has a queen, then Bob has a jack') and epistemic modals (e.g., 'Ann might have an ace', 'Bob must have a king'). These inferences have been of special interest to logicians, philosophers, and linguists, since they play a central role in the fundamental human ability to reason about distal possibilities. Assessing LLMs on these inferences is thus highly relevant to the question of how much the reasoning abilities of LLMs match those of humans. Among the LLMs we tested, all but the GPT-4 model family often make basic mistakes with conditionals, though zero-shot chain-of-thought prompting helps them make fewer mistakes. Moreover, even the GPT-4 family displays logically inconsistent judgments across inference patterns involving epistemic modals, and almost all models give answers to certain complex conditional inferences widely discussed in the literature that do not match human judgments. These results highlight gaps in basic logical reasoning in today's LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、AIと認知科学における研究の活発化のトピックである。
本稿では,LLMが論理的に正しい推論と論理的に誤った推論を区別できる範囲について検討する。
条件付き推論パターン(例:アンが女王ならボブはジャック)とてんかんのモーダル(例:アンがエースを持っているかもしれない」「ボブは王でなければならない」)に焦点を当てる。
これらの推論は論理学者、哲学者、言語学者にとって特に興味を持ち、遠位の可能性について推論する基本的な人間の能力において中心的な役割を果たしている。
したがって、LLMの推論における評価は、LLMの推論能力が人間の推論とどの程度一致しているかという問題に大きく関係している。
私たちがテストしたLCMの中で、GPT-4モデルファミリ以外は条件付きで基本的なミスを犯すことが多いが、ゼロショットチェーンのプロンプトはミスを減らすのに役立ちます。
さらに、GPT-4ファミリーでさえ、疫学的モーダルを含む推論パターンの論理的に矛盾した判断を示しており、ほぼ全てのモデルは、人間の判断と一致しない文献で広く議論されている複雑な条件推論に対する回答を与える。
これらの結果は、今日のLLMにおける基本的な論理的推論のギャップを浮き彫りにする。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文 参考訳(メタデータ) (2024-07-31T18:47:11Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study
on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。
本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:40:41Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。