論文の概要: Do Large Language Models Excel in Complex Logical Reasoning with Formal Language?
- arxiv url: http://arxiv.org/abs/2505.16998v1
- Date: Thu, 22 May 2025 17:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.544954
- Title: Do Large Language Models Excel in Complex Logical Reasoning with Formal Language?
- Title(参考訳): 形式言語と複雑な論理的推論における大規模言語モデルはExcelか?
- Authors: Jin Jiang, Jianing Wang, Yuchen Yan, Yang Liu, Jianhua Zhu, Mengdi Zhang, Xunliang Cai, Liangcai Gao,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な論理的推論タスクにおいてブレークスルーのパフォーマンスを達成することが示されている。
本稿では,形式言語を用いた論理的推論問題に対して,LLMを包括的に評価することを目的とする。
- 参考スコア(独自算出の注目度): 20.53475791645822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have been shown to achieve breakthrough performance on complex logical reasoning tasks. Nevertheless, most existing research focuses on employing formal language to guide LLMs to derive reliable reasoning paths, while systematic evaluations of these capabilities are still limited. In this paper, we aim to conduct a comprehensive evaluation of LLMs across various logical reasoning problems utilizing formal languages. From the perspective of three dimensions, i.e., spectrum of LLMs, taxonomy of tasks, and format of trajectories, our key findings are: 1) Thinking models significantly outperform Instruct models, especially when formal language is employed; 2) All LLMs exhibit limitations in inductive reasoning capability, irrespective of whether they use a formal language; 3) Data with PoT format achieves the best generalization performance across other languages. Additionally, we also curate the formal-relative training data to further enhance the small language models, and the experimental results indicate that a simple rejected fine-tuning method can better enable LLMs to generalize across formal languages and achieve the best overall performance. Our codes and reports are available at https://github.com/jiangjin1999/FormalEval.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な論理的推論タスクにおいてブレークスルーのパフォーマンスを達成することが示されている。
それにもかかわらず、既存の研究のほとんどは、LSMを信頼できる推論経路を導き出すための形式言語の使用に焦点が当てられているが、これらの能力の体系的評価はまだ限られている。
本稿では,形式言語を用いた論理的推論問題に対して,LLMを包括的に評価することを目的とする。
LLMのスペクトル、タスクの分類、軌跡の形式という3つの次元の観点から、我々の重要な発見は以下のとおりである。
1 モデルは、特に形式言語を用いる場合において、命令モデルを大幅に上回る。
2 すべての LLM は、形式言語を使用するか否かにかかわらず、帰納的推論能力の限界を示す。
3) PoT フォーマットのデータは他の言語で最高の一般化性能を達成する。
さらに,本実験の結果から,LLMを形式言語全体にわたって一般化し,全体的な性能を最大限に発揮できる可能性が示唆された。
私たちのコードとレポートはhttps://github.com/jiangjin 1999/FormalEval.comで公開されています。
関連論文リスト
- Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning [4.071220436730322]
大規模言語モデル(LLM)は、主に高リソースの自然言語で訓練されている。
本研究はLLMの論理的推論と一般化能力を評価するためのベンチマークであるRosetta-PLを紹介する。
論文 参考訳(メタデータ) (2025-03-25T21:12:29Z) - Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs [8.146860674148044]
我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。
決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。
3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。