論文の概要: Are Large Language Models Really Good Logical Reasoners? A Comprehensive
Evaluation From Deductive, Inductive and Abductive Views
- arxiv url: http://arxiv.org/abs/2306.09841v1
- Date: Fri, 16 Jun 2023 13:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 13:39:30.387526
- Title: Are Large Language Models Really Good Logical Reasoners? A Comprehensive
Evaluation From Deductive, Inductive and Abductive Views
- Title(参考訳): 大規模言語モデルは本当に優れた論理型推論器か?
帰納的・帰納的・帰納的視点からの総合的評価
- Authors: Fangzhi Xu, Qika Lin, Jiawei Han, Tianzhe Zhao, Jun Liu, Erik Cambria
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理において大きな成功を収めた。
論理的推論能力はまだ十分に評価されていません
本稿では,15の典型的な論理推論データセットを選択し,それらを帰納的,帰納的,帰納的,混合的な推論設定に整理する。
- 参考スコア(独自算出の注目度): 32.797832207443896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved great success in various natural
language tasks. It has aroused much interest in evaluating the specific
reasoning capability of LLMs, such as multilingual reasoning and mathematical
reasoning. However, as one of the key reasoning perspectives, logical reasoning
capability has not yet been thoroughly evaluated. In this work, we aim to
bridge those gaps and provide comprehensive evaluations. Firstly, to offer
systematic evaluations, this paper selects fifteen typical logical reasoning
datasets and organizes them into deductive, inductive, abductive and mixed-form
reasoning settings. Considering the comprehensiveness of evaluations, we
include three representative LLMs (i.e., text-davinci-003, ChatGPT and BARD)
and evaluate them on all selected datasets under zero-shot, one-shot and
three-shot settings. Secondly, different from previous evaluations relying only
on simple metrics (e.g., accuracy), we propose fine-level evaluations from
objective and subjective manners, covering both answers and explanations. Also,
to uncover the logical flaws of LLMs, bad cases will be attributed to five
error types from two dimensions. Thirdly, to avoid the influences of knowledge
bias and purely focus on benchmarking the logical reasoning capability of LLMs,
we propose a new dataset with neutral content. It contains 3K samples and
covers deductive, inductive and abductive reasoning settings. Based on the
in-depth evaluations, this paper finally concludes the ability maps of logical
reasoning capability from six dimensions (i.e., correct, rigorous, self-aware,
active, oriented and no hallucination). It reflects the pros and cons of LLMs
and gives guiding directions for future works.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な自然言語処理において大きな成功を収めた。
多言語推論や数学的推論など、LLMの特定の推論能力を評価することに多くの関心が寄せられている。
しかし、重要な推論の観点の一つとして、論理的推論能力はまだ十分に評価されていない。
本研究では,これらのギャップを埋め,包括的に評価することを目的とする。
まず, 体系的評価を行うために, 15の典型的な論理推論データセットを選択し, 帰納的, 帰納的, 帰納的および混合的推論設定に整理する。
評価の包括性を考慮すると、3つの代表的なLCM(text-davinci-003, ChatGPT, BARD)を含み、ゼロショット、ワンショット、3ショット設定で選択されたすべてのデータセットで評価する。
第二に,単純な指標(例えば正確性)のみに依存する従来の評価と異なり,客観的・主観的評価を行い,回答と説明の両方をカバーする。
また、LLMの論理的欠陥を明らかにするために、悪いケースは2次元から5つのエラータイプに起因する。
第三に、知識バイアスの影響を回避し、LLMの論理的推論能力のベンチマークに純粋に集中するため、中立性のある新しいデータセットを提案する。
3Kサンプルを含み、推論、帰納的推論設定をカバーしている。
そこで本研究では,6次元から論理的推論能力の能力マップ(正解,厳格,自己認識,能動,指向性,幻覚,無幻覚)を作成した。
LLMの長所と短所を反映し、将来の作品の指針を与える。
関連論文リスト
- Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Information Re-Organization Improves Reasoning in Large Language Models [16.053710240867524]
大規模言語モデル(LLM)の推論能力を高める情報再構成(InfoRE)手法を提案する。
まず、文書や段落などの文脈内容の再編成処理を行い、論理的関係を得る。
これにより、LLMはこれらの論理的関係を明確に認識することで、文脈的内容の理解を深めることができる。
論文 参考訳(メタデータ) (2024-04-22T08:47:27Z) - LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.537725151112387]
完全自動推論チェーン評価のためのAutoRaceを導入する。
既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
論文 参考訳(メタデータ) (2024-04-08T06:35:09Z) - Can Large Language Models Identify Authorship? [18.378744138365537]
大規模言語モデル(LLM)は、推論と問題解決に非常に優れた能力を示している。
本稿では,著者分析におけるLLMの包括的評価を行う。
論文 参考訳(メタデータ) (2024-03-13T03:22:02Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。