論文の概要: Lost in the Logic: An Evaluation of Large Language Models' Reasoning Capabilities on LSAT Logic Games
- arxiv url: http://arxiv.org/abs/2409.19012v1
- Date: Mon, 23 Sep 2024 21:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 05:00:47.386494
- Title: Lost in the Logic: An Evaluation of Large Language Models' Reasoning Capabilities on LSAT Logic Games
- Title(参考訳): 論理学における損失:LSAT論理ゲームにおける大言語モデルの推論能力の評価
- Authors: Saumya Malik,
- Abstract要約: 法学校入学試験(LSAT)における大規模言語モデル(LLM)の性能評価
論理ゲームとその関連メタデータのデータセットを構築し、Chain-of-Thoughtプロンプト設定においてLLMの性能を広範囲に評価する。
私は、モデルがより良いか悪いかを示す論理ゲームの種類と、人間のアノテーションから観察する論理エラーのタイプを分析します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this thesis, I evaluate the performance of Large Language Models (LLMs) on the Law School Admissions Test (LSAT), specifically the Logic Games section of the test. I focus on this section because it presents a complex logical reasoning task and thus is a valuable source of data for evaluating how modern, increasingly capable LLMs can handle hard logical reasoning tasks. I construct a dataset of LSAT logic games and their associated metadata, and extensively evaluate LLMs' performance in a Chain-of-Thought prompting setting. Given the weak performance in this setting, I explore other prompting frameworks on a smaller subset of the dataset, adapting ideas from Reflexion to this task. This results in a substantially improved accuracy of 70 percent for GPT-4 and 46 percent for GPT-3.5 on this data subset, highlighting the capacity of LLMs to revise their logical errors, despite initially weak performance. Finally, I analyze the types of logic games that models perform better or worse on, as well as the types of logical errors I observe from human annotation, providing detailed insights on the logical reasoning capabilities of LLMs.
- Abstract(参考訳): 本論文では,Law School Admissions Test (LSAT) におけるLarge Language Models (LLM) の性能,特にテストのLogic Games セクションについて評価する。
このセクションは複雑な論理的推論タスクを示すので、LLMがハード論理的推論タスクをどのように扱えるかを評価する上で貴重なデータ源となります。
LSATロジックゲームとそのメタデータのデータセットを構築し、Chain-of-Thoughtプロンプト設定においてLLMの性能を広範囲に評価する。
この設定での弱いパフォーマンスを考えると、データセットの小さなサブセットで他のプロンプトフレームワークを調べ、Reflexionのアイデアをこのタスクに適用します。
その結果、GPT-4の70%、GPT-3.5の66%の精度が大幅に向上し、当初は性能が低かったにもかかわらず、LLMが論理的エラーを修正する能力が強調された。
最後に、LLMの論理的推論能力に関する詳細な洞察を提供するとともに、モデルがより良く、またはより良く機能する論理ゲームの種類と、人間のアノテーションから私が観察する論理的エラーの種類を分析します。
関連論文リスト
- Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models [10.106408289179463]
本稿では,入力コンテキストから拡張論理情報を生成するために,命題論理を利用するロジック・オブ・ソート(LoT)プロンプトを提案する。
LoTは5つの論理的推論タスクで顕著なマージンで、様々なプロンプトメソッドのパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-09-26T04:59:45Z) - LOGIC-LM++: Multi-Step Refinement for Symbolic Formulations [1.024113475677323]
本稿では Logic-LM++ を改良した Logic-LM++ を提案する。
LLMの機能をペアで比較し、LLMが提案する改善点の評価を可能にする。
論文 参考訳(メタデータ) (2024-06-22T12:50:41Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding [40.2816930342597]
大規模言語モデル(LLM)は多くの推論タスクにおいて優れたパフォーマンスを示している。
しかしそれでも、論理的推論を含む複雑な推論タスクに苦戦している。
本稿では,WHAT,WHY,HOWの3次元から具体的な5つのタスクを提案する。
論文 参考訳(メタデータ) (2024-04-04T08:38:03Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。