論文の概要: Are LLMs classical or nonmonotonic reasoners? Lessons from generics
- arxiv url: http://arxiv.org/abs/2406.06590v2
- Date: Wed, 12 Jun 2024 11:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 21:45:26.493497
- Title: Are LLMs classical or nonmonotonic reasoners? Lessons from generics
- Title(参考訳): LLMは古典的か非単調的か?ジェネリクスから学ぶ
- Authors: Alina Leidinger, Robert van Rooij, Ekaterina Shutova,
- Abstract要約: 本研究では,7つのLLMの非単調推論能力を1つの抽象的および1つの常識的推論タスクで研究する。
LLMは人間の非単調な推論能力に従って推論パターンを示すが、ジェネリックスの真理条件に関する安定した信念を維持できない。
- 参考スコア(独自算出の注目度): 11.597656209820828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent scholarship on reasoning in LLMs has supplied evidence of impressive performance and flexible adaptation to machine generated or human feedback. Nonmonotonic reasoning, crucial to human cognition for navigating the real world, remains a challenging, yet understudied task. In this work, we study nonmonotonic reasoning capabilities of seven state-of-the-art LLMs in one abstract and one commonsense reasoning task featuring generics, such as 'Birds fly', and exceptions, 'Penguins don't fly' (see Fig. 1). While LLMs exhibit reasoning patterns in accordance with human nonmonotonic reasoning abilities, they fail to maintain stable beliefs on truth conditions of generics at the addition of supporting examples ('Owls fly') or unrelated information ('Lions have manes'). Our findings highlight pitfalls in attributing human reasoning behaviours to LLMs, as well as assessing general capabilities, while consistent reasoning remains elusive.
- Abstract(参考訳): LLMにおける推論に関する最近の研究は、機械や人間のフィードバックに対する印象的な性能と柔軟な適応の証拠を提供している。
現実世界をナビゲートするために人間の認知に不可欠な非単調な推論は、難しいが未調査の課題である。
本研究では,7つの最先端LCMの非単調な推論能力について,1つの抽象的および1つの常識的推論タスク,例えば「バードフライ」や「ペンギンは飛べない」例外について検討する(図1参照)。
LLMは人間の非単調な推論能力に従って推論パターンを示すが、支持する例("Owls fly")や非関連情報("Lions has manes")の追加によって、ジェネリックスの真理条件に対する安定した信念を維持することができない。
我々の研究は、人間の推論行動のLCMへの寄与と、一般的な能力の評価の落とし穴を浮き彫りにし、一貫した推論はいまだ解明されていない。
関連論文リスト
- A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的誤りとシロメトリクス問題を含む,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding [40.2816930342597]
大規模言語モデル(LLM)は多くの推論タスクにおいて優れたパフォーマンスを示している。
しかしそれでも、論理的推論を含む複雑な推論タスクに苦戦している。
本稿では,WHAT,WHY,HOWの3次元から具体的な5つのタスクを提案する。
論文 参考訳(メタデータ) (2024-04-04T08:38:03Z) - Meaningful Learning: Advancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
それにもかかわらず、一般的な事実に支えられた単純な質問をタスクすると、LCMは一貫性のある正確な答えを提供しないことが多い。
このことは、LSMが真に推論しているのか、単に記憶しているだけなのか、という活発な議論を引き起こしている。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z) - Can Pretrained Language Models (Yet) Reason Deductively? [72.9103833294272]
PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。
本研究の主目的は, PLMがまだ信頼性の高い導出的推論を行うことができないことである。
PLMは人間レベルの推論能力からは程遠いことがわかりました。
論文 参考訳(メタデータ) (2022-10-12T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。