論文の概要: Are Large Language Models Really Good Logical Reasoners? A Comprehensive
Evaluation and Beyond
- arxiv url: http://arxiv.org/abs/2306.09841v2
- Date: Tue, 11 Jul 2023 13:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 18:11:36.613974
- Title: Are Large Language Models Really Good Logical Reasoners? A Comprehensive
Evaluation and Beyond
- Title(参考訳): 大規模言語モデルは本当に優れた論理型推論器か?
総合的な評価とそれ以上
- Authors: Fangzhi Xu, Qika Lin, Jiawei Han, Tianzhe Zhao, Jun Liu, Erik Cambria
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
- 参考スコア(独自算出の注目度): 32.797832207443896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logical reasoning consistently plays a fundamental and significant role in
the domains of knowledge engineering and artificial intelligence. Recently,
Large Language Models (LLMs) have emerged as a noteworthy innovation in natural
language processing (NLP), exhibiting impressive achievements across various
classic NLP tasks. However, the question of whether LLMs can effectively
address the task of logical reasoning, which requires gradual cognitive
inference similar to human intelligence, remains unanswered. To this end, we
aim to bridge this gap and provide comprehensive evaluations in this paper.
Firstly, to offer systematic evaluations, we select fifteen typical logical
reasoning datasets and organize them into deductive, inductive, abductive and
mixed-form reasoning settings. Considering the comprehensiveness of
evaluations, we include three representative LLMs (i.e., text-davinci-003,
ChatGPT and BARD) and evaluate them on all selected datasets under zero-shot,
one-shot and three-shot settings. Secondly, different from previous evaluations
relying only on simple metrics (e.g., accuracy), we propose fine-level
evaluations from objective and subjective manners, covering both answers and
explanations. Additionally, to uncover the logical flaws of LLMs, problematic
cases will be attributed to five error types from two dimensions, i.e.,
evidence selection process and reasoning process. Thirdly, to avoid the
influences of knowledge bias and purely focus on benchmarking the logical
reasoning capability of LLMs, we propose a new dataset with neutral content. It
contains 3,000 samples and covers deductive, inductive and abductive settings.
Based on the in-depth evaluations, this paper finally forms a general
evaluation scheme of logical reasoning capability from six dimensions. It
reflects the pros and cons of LLMs and gives guiding directions for future
works.
- Abstract(参考訳): 論理的推論は、知識工学と人工知能の分野において、一貫して基本的で重要な役割を果たす。
近年、Large Language Models (LLMs) は自然言語処理(NLP)における注目すべき革新として現れ、様々な古典的NLPタスクにおいて顕著な成果を発揮している。
しかし、LLMが人間の知性に類似した段階的な認知推論を必要とする論理的推論の課題に効果的に対処できるかどうかという問題は未解決のままである。
この目的のために,本論文では,このギャップを橋渡しし,包括的評価を行う。
まず,システマティックな評価を行うために,15の典型的な論理推論データセットを選択し,推論,帰納的,帰納的,混合形式の推論設定に整理する。
評価の包括性を考慮すると、3つの代表的なLCM(text-davinci-003, ChatGPT, BARD)を含み、ゼロショット、ワンショット、3ショット設定で選択されたすべてのデータセットで評価する。
第二に,単純な指標(例えば正確性)のみに依存する従来の評価と異なり,客観的・主観的評価を行い,回答と説明の両方をカバーする。
さらに、LLMの論理的欠陥を明らかにするために、問題のあるケースは2次元から5つのエラータイプ、すなわちエビデンス選択プロセスと推論プロセスに起因する。
第三に、知識バイアスの影響を回避し、LLMの論理的推論能力のベンチマークに純粋に集中するため、中立性のある新しいデータセットを提案する。
サンプルは3,000種類あり、デダクティブ、インダクティブ、アブダクティブの設定をカバーしている。
本論文は,詳細な評価に基づいて,6次元から論理推論能力の一般的な評価手法を提案する。
LLMの長所と短所を反映し、将来の作品の指針を与える。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-24T23:02:56Z) - Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities [31.728976421529577]
包括的なドメイン集合からの抽象的および文脈的論理的問題に対するコントラストについて検討する。
我々は、標準的な命題論理、特に命題推論と帰納論理推論に焦点を当てる。
本実験は,LLMの論理的推論と真の推論能力に関する知見を提供することを目的としている。
論文 参考訳(メタデータ) (2024-06-04T21:25:06Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Language Models Are Greedy Reasoners: A Systematic Formal Analysis of
Chain-of-Thought [10.524051272257614]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトが与えられた顕著な推論能力を示している。
本稿では, PrOntoQAと呼ばれる合成質問応答データセットを提案し, それぞれの例を合成世界モデルとして生成する。
これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。
論文 参考訳(メタデータ) (2022-10-03T21:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。