論文の概要: Conditional and Modal Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17169v1
- Date: Tue, 30 Jan 2024 16:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:05:46.540458
- Title: Conditional and Modal Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける条件とモーダル推論
- Authors: Wesley H. Holliday and Matthew Mandelkern
- Abstract要約: 我々は、論理的に正しい推論と論理的に誤った推論を区別できる数十の大規模言語モデルについて検討する。
本研究は, 条件付きおよびてんかん様相を含む推論パターンに着目した。
GPT-4以外は条件付きで基本的な誤りを犯すことが多い。
- 参考スコア(独自算出の注目度): 2.4554686192257424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning abilities of large language models (LLMs) are the topic of a
growing body of research in artificial intelligence and cognitive science. In
this paper, we probe the extent to which a dozen LLMs are able to distinguish
logically correct inferences from logically fallacious ones. We focus on
inference patterns involving conditionals (e.g., 'If Ann has a queen, then Bob
has a jack') and epistemic modals (e.g., 'Ann might have an ace', 'Bob must
have a king'). These inference patterns have been of special interest to
logicians, philosophers, and linguists, since they plausibly play a central
role in human reasoning. Assessing LLMs on these inference patterns is thus
highly relevant to the question of how much the reasoning abilities of LLMs
match those of humans. Among the LLMs we tested, all but GPT-4 often make basic
mistakes with conditionals. Moreover, even GPT-4 displays logically
inconsistent judgments across inference patterns involving epistemic modals.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、人工知能と認知科学における研究の活発化のトピックである。
本稿では、十数個のLLMが論理的に正しい推論と論理的に誤った推論を区別できる範囲を探索する。
我々は条件文(例えば、アンが女王ならば、ボブがジャックならば)とてんかん(例えば、アンがエースを持っているなら、ボブは王でなければならない)を含む推論パターンに焦点を当てる。
これらの推論パターンは、論理学者、哲学者、言語学者にとって特に関心があり、それらは人間の推論においておそらく中心的な役割を果たす。
したがって、これらの推論パターンに対するLLMの評価は、LLMの推論能力が人間のものとどの程度一致しているかという問題に大きく関係している。
我々がテストしたLSMのうち、GPT-4以外は条件付きで基本的なミスを犯すことが多い。
さらに、GPT-4でさえ、てんかんを含む推論パターンに論理的に矛盾する判断を示す。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文 参考訳(メタデータ) (2024-07-31T18:47:11Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study
on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。
本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:40:41Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。