論文の概要: Conditional and Modal Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17169v4
- Date: Sun, 13 Oct 2024 11:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:14.918370
- Title: Conditional and Modal Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける条件とモーダル推論
- Authors: Wesley H. Holliday, Matthew Mandelkern, Cedegao E. Zhang,
- Abstract要約: 我々は条件やモーダルを含む推論パターンに焦点を当てる。
私たちがテストしたすべてのLLMは、条件やモダルでいくつかの基本的な間違いを犯しました。
最高のLCMでさえ、モーダル推論において基本的な誤りを犯す。
- 参考スコア(独自算出の注目度): 1.999925939110439
- License:
- Abstract: The reasoning abilities of large language models (LLMs) are the topic of a growing body of research in AI and cognitive science. In this paper, we probe the extent to which twenty-nine LLMs are able to distinguish logically correct inferences from logically fallacious ones. We focus on inference patterns involving conditionals (e.g., 'If Ann has a queen, then Bob has a jack') and epistemic modals (e.g., 'Ann might have an ace', 'Bob must have a king'). These inferences have been of special interest to logicians, philosophers, and linguists, since they play a central role in the fundamental human ability to reason about distal possibilities. Assessing LLMs on these inferences is thus highly relevant to the question of how much the reasoning abilities of LLMs match those of humans. All the LLMs we tested make some basic mistakes with conditionals or modals, though zero-shot chain-of-thought prompting helps them make fewer mistakes. Even the best performing LLMs make basic errors in modal reasoning, display logically inconsistent judgments across inference patterns involving epistemic modals and conditionals, and give answers about complex conditional inferences that do not match reported human judgments. These results highlight gaps in basic logical reasoning in today's LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、AIと認知科学における研究の活発化のトピックである。
本稿では,論理的に正しい推論を論理的に誤った推定と区別できる範囲について検討する。
条件付き推論パターン(例:アンが女王ならボブはジャック)とてんかんのモーダル(例:アンがエースを持っているかもしれない」「ボブは王でなければならない」)に焦点を当てる。
これらの推論は論理学者、哲学者、言語学者にとって特に興味を持ち、遠位の可能性について推論する基本的な人間の能力において中心的な役割を果たしている。
したがって、LLMの推論における評価は、LLMの推論能力が人間の推論とどの程度一致しているかという問題に大きく関係している。
私たちがテストしたすべてのLLMは条件やモダルで基本的なミスを犯しますが、ゼロショットチェーンのプロンプトはミスを減らすのに役立ちます。
最高のLCMでさえ、モーダル推論において基本的な誤りを犯し、疫学的なモーダルと条件を含む推論パターンに論理的に矛盾した判断を表示し、報告された人間の判断と一致しない複雑な条件推論に関する回答を与える。
これらの結果は、今日のLLMにおける基本的な論理的推論のギャップを浮き彫りにする。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文 参考訳(メタデータ) (2024-07-31T18:47:11Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study
on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。
本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:40:41Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。