論文の概要: Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.17169v2
- Date: Fri, 04 Oct 2024 05:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:09.746468
- Title: Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models
- Title(参考訳): Multi-LogiEval:大規模言語モデルのマルチステップ論理推論能力の評価に向けて
- Authors: Nisarg Patel, Mohith Kulkarni, Mihir Parmar, Aashna Budhiraja, Mutsumi Nakamura, Neeraj Varshney, Chitta Baral,
- Abstract要約: Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
- 参考スコア(独自算出の注目度): 46.26140720993383
- License:
- Abstract: As Large Language Models (LLMs) continue to exhibit remarkable performance in natural language understanding tasks, there is a crucial need to measure their ability for human-like multi-step logical reasoning. Existing logical reasoning evaluation benchmarks often focus primarily on simplistic single-step or multi-step reasoning with a limited set of inference rules. Furthermore, the lack of datasets for evaluating non-monotonic reasoning represents a crucial gap since it aligns more closely with human-like reasoning. To address these limitations, we propose Multi-LogiEval, a comprehensive evaluation dataset encompassing multi-step logical reasoning with various inference rules and depths. Multi-LogiEval covers three logic types--propositional, first-order, and non-monotonic--consisting of more than 30 inference rules and more than 60 of their combinations with various depths. Leveraging this dataset, we conduct evaluations on a range of LLMs including GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, and Mistral, employing a zero-shot chain-of-thought. Experimental results show that there is a significant drop in the performance of LLMs as the reasoning steps/depth increases (average accuracy of ~68% at depth-1 to ~43% at depth-5). We further conduct a thorough investigation of reasoning chains generated by LLMs which reveals several important findings. We believe that Multi-LogiEval facilitates future research for evaluating and enhancing the logical reasoning ability of LLMs. Data is available at https://github.com/Mihir3009/Multi-LogiEval.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解タスクにおいて顕著な性能を示し続けているため、人間のような多段階論理推論の能力を測定することが不可欠である。
既存の論理推論評価ベンチマークは、主に単純な単一ステップまたは複数ステップの推論に限定した推論規則に重点を置いていることが多い。
さらに、非単調推論を評価するためのデータセットの欠如は、人間のような推論とより緊密に一致するため、重要なギャップである。
これらの制約に対処するため,多段階論理推論を含む総合評価データセットであるMulti-LogiEvalを提案する。
Multi-LogiEvalは、30以上の推論規則と60以上の組み合わせを様々な深さで構成する、命題型、一階型、非単調型の3つの論理型をカバーしている。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistral など,さまざまな LLM の評価を行い,ゼロショット・チェーン・オブ・シークレットを用いた。
実験結果から, 推算ステップ/深度が増加するにつれてLLMの性能は著しく低下することがわかった(平均精度は深さ1で68%, 深さ5で43%)。
さらに LLM が生成する推論鎖の徹底的な検討を行い,いくつかの重要な知見が得られた。
我々は,LLMの論理的推論能力の評価と向上のために,Multi-LogiEvalが今後の研究を促進すると考えている。
データはhttps://github.com/Mihir3009/Multi-LogiEval.comで入手できる。
関連論文リスト
- P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。