論文の概要: Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond
- arxiv url: http://arxiv.org/abs/2306.09841v4
- Date: Sun, 15 Sep 2024 07:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:47:45.029820
- Title: Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond
- Title(参考訳): 大規模言語モデルは本当に良い論理的推論子か? 総合的な評価とそれを超えるもの
- Authors: Fangzhi Xu, Qika Lin, Jiawei Han, Tianzhe Zhao, Jun Liu, Erik Cambria,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
評価の包括性を考慮すると、3つの早期代表型LSMと4つのトレンド型LSMを含む。
- 参考スコア(独自算出の注目度): 46.75497042978449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logical reasoning consistently plays a fundamental and significant role in the domains of knowledge engineering and artificial intelligence. Recently, Large Language Models (LLMs) have emerged as a noteworthy innovation in natural language processing (NLP). However, the question of whether LLMs can effectively address the task of logical reasoning, which requires gradual cognitive inference similar to human intelligence, remains unanswered. To this end, we aim to bridge this gap and provide comprehensive evaluations in this paper. Firstly, to offer systematic evaluations, we select fifteen typical logical reasoning datasets and organize them into deductive, inductive, abductive and mixed-form reasoning settings. Considering the comprehensiveness of evaluations, we include 3 early-era representative LLMs and 4 trending LLMs. Secondly, different from previous evaluations relying only on simple metrics (e.g., \emph{accuracy}), we propose fine-level evaluations in objective and subjective manners, covering both answers and explanations, including \emph{answer correctness}, \emph{explain correctness}, \emph{explain completeness} and \emph{explain redundancy}. Additionally, to uncover the logical flaws of LLMs, problematic cases will be attributed to five error types from two dimensions, i.e., \emph{evidence selection process} and \emph{reasoning process}. Thirdly, to avoid the influences of knowledge bias and concentrate purely on benchmarking the logical reasoning capability of LLMs, we propose a new dataset with neutral content. Based on the in-depth evaluations, this paper finally forms a general evaluation scheme of logical reasoning capability from six dimensions (i.e., \emph{Correct}, \emph{Rigorous}, \emph{Self-aware}, \emph{Active}, \emph{Oriented} and \emph{No hallucination}). It reflects the pros and cons of LLMs and gives guiding directions for future works.
- Abstract(参考訳): 論理的推論は、知識工学と人工知能の分野において、一貫して根本的かつ重要な役割を担っている。
近年,Large Language Models (LLMs) が自然言語処理(NLP)における注目すべき革新として出現している。
しかし、LLMが人間の知性に類似した段階的な認知推論を必要とする論理的推論の課題に効果的に対処できるかどうかという問題は未解決のままである。
そこで本稿では,このギャップを埋め,包括的に評価することを目的としている。
まず,システマティックな評価を行うために,15の典型的な論理推論データセットを選択し,推論,帰納的,帰納的,混合形式の推論設定に整理する。
評価の包括性を考慮すると、3つの早期代表型LSMと4つのトレンド型LSMを含む。
第二に、単純な指標のみに依存する以前の評価(eg , \emph{accuracy})とは違い、目的的および主観的な方法による微妙な評価を提案し、答えと説明の両方をカバーし、例えば \emph{answer correctness}, \emph{explain correctness}, \emph{explain completeness}, \emph{explain redundancy} などである。
さらに、LLMの論理的欠陥を明らかにするために、問題のあるケースは2次元の5つのエラータイプ、すなわち \emph{evidence selection process} と \emph{reasoning process} に起因する。
第三に、知識バイアスの影響を回避し、LLMの論理的推論能力のベンチマークに純粋に集中するため、中立なコンテンツを持つ新しいデータセットを提案する。
詳細な評価に基づいて、最終的に6次元から論理的推論能力の一般的な評価スキームを形成する(例えば、 \emph{Correct}, \emph{Rigorous}, \emph{Self-aware}, \emph{Active}, \emph{Oriented}, \emph{No Hallucination})。
LLMの長所と短所を反映し、将来の作品の指針を与える。
関連論文リスト
- Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-24T23:02:56Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.537725151112387]
完全自動推論チェーン評価のためのAutoRaceを導入する。
既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
論文 参考訳(メタデータ) (2024-04-08T06:35:09Z) - Can Large Language Models Identify Authorship? [18.378744138365537]
大規模言語モデル(LLM)は、推論と問題解決に非常に優れた能力を示している。
本稿では,著者分析におけるLLMの包括的評価を行う。
論文 参考訳(メタデータ) (2024-03-13T03:22:02Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。