論文の概要: Are Large Language Models Really Good Logical Reasoners? A Comprehensive
Evaluation From Deductive, Inductive and Abductive Views
- arxiv url: http://arxiv.org/abs/2306.09841v1
- Date: Fri, 16 Jun 2023 13:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 13:39:30.387526
- Title: Are Large Language Models Really Good Logical Reasoners? A Comprehensive
Evaluation From Deductive, Inductive and Abductive Views
- Title(参考訳): 大規模言語モデルは本当に優れた論理型推論器か?
帰納的・帰納的・帰納的視点からの総合的評価
- Authors: Fangzhi Xu, Qika Lin, Jiawei Han, Tianzhe Zhao, Jun Liu, Erik Cambria
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理において大きな成功を収めた。
論理的推論能力はまだ十分に評価されていません
本稿では,15の典型的な論理推論データセットを選択し,それらを帰納的,帰納的,帰納的,混合的な推論設定に整理する。
- 参考スコア(独自算出の注目度): 32.797832207443896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved great success in various natural
language tasks. It has aroused much interest in evaluating the specific
reasoning capability of LLMs, such as multilingual reasoning and mathematical
reasoning. However, as one of the key reasoning perspectives, logical reasoning
capability has not yet been thoroughly evaluated. In this work, we aim to
bridge those gaps and provide comprehensive evaluations. Firstly, to offer
systematic evaluations, this paper selects fifteen typical logical reasoning
datasets and organizes them into deductive, inductive, abductive and mixed-form
reasoning settings. Considering the comprehensiveness of evaluations, we
include three representative LLMs (i.e., text-davinci-003, ChatGPT and BARD)
and evaluate them on all selected datasets under zero-shot, one-shot and
three-shot settings. Secondly, different from previous evaluations relying only
on simple metrics (e.g., accuracy), we propose fine-level evaluations from
objective and subjective manners, covering both answers and explanations. Also,
to uncover the logical flaws of LLMs, bad cases will be attributed to five
error types from two dimensions. Thirdly, to avoid the influences of knowledge
bias and purely focus on benchmarking the logical reasoning capability of LLMs,
we propose a new dataset with neutral content. It contains 3K samples and
covers deductive, inductive and abductive reasoning settings. Based on the
in-depth evaluations, this paper finally concludes the ability maps of logical
reasoning capability from six dimensions (i.e., correct, rigorous, self-aware,
active, oriented and no hallucination). It reflects the pros and cons of LLMs
and gives guiding directions for future works.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な自然言語処理において大きな成功を収めた。
多言語推論や数学的推論など、LLMの特定の推論能力を評価することに多くの関心が寄せられている。
しかし、重要な推論の観点の一つとして、論理的推論能力はまだ十分に評価されていない。
本研究では,これらのギャップを埋め,包括的に評価することを目的とする。
まず, 体系的評価を行うために, 15の典型的な論理推論データセットを選択し, 帰納的, 帰納的, 帰納的および混合的推論設定に整理する。
評価の包括性を考慮すると、3つの代表的なLCM(text-davinci-003, ChatGPT, BARD)を含み、ゼロショット、ワンショット、3ショット設定で選択されたすべてのデータセットで評価する。
第二に,単純な指標(例えば正確性)のみに依存する従来の評価と異なり,客観的・主観的評価を行い,回答と説明の両方をカバーする。
また、LLMの論理的欠陥を明らかにするために、悪いケースは2次元から5つのエラータイプに起因する。
第三に、知識バイアスの影響を回避し、LLMの論理的推論能力のベンチマークに純粋に集中するため、中立性のある新しいデータセットを提案する。
3Kサンプルを含み、推論、帰納的推論設定をカバーしている。
そこで本研究では,6次元から論理的推論能力の能力マップ(正解,厳格,自己認識,能動,指向性,幻覚,無幻覚)を作成した。
LLMの長所と短所を反映し、将来の作品の指針を与える。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-24T23:02:56Z) - Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities [31.728976421529577]
包括的なドメイン集合からの抽象的および文脈的論理的問題に対するコントラストについて検討する。
我々は、標準的な命題論理、特に命題推論と帰納論理推論に焦点を当てる。
本実験は,LLMの論理的推論と真の推論能力に関する知見を提供することを目的としている。
論文 参考訳(メタデータ) (2024-06-04T21:25:06Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Language Models Are Greedy Reasoners: A Systematic Formal Analysis of
Chain-of-Thought [10.524051272257614]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトが与えられた顕著な推論能力を示している。
本稿では, PrOntoQAと呼ばれる合成質問応答データセットを提案し, それぞれの例を合成世界モデルとして生成する。
これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。
論文 参考訳(メタデータ) (2022-10-03T21:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。