論文の概要: A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters
- arxiv url: http://arxiv.org/abs/2406.00284v1
- Date: Sat, 1 Jun 2024 03:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:54:19.358717
- Title: A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters
- Title(参考訳): LLMによる論理的推論 - ツール項目の選択
- Authors: Long Hei Matthew Lam, Ehsan Shareghi,
- Abstract要約: 大規模言語モデル (LLM) は論理的推論タスクを効果的に解く上で有望な進歩を示している。
我々は、Z3、Pyke、Prover9という3つのシンボリック・ソルバと統合されたLLMの実験を行う。
以上の結果から,LLMと組み合わせた場合,Pykeの性能はProver9とZ3に比べ有意に劣ることがわかった。
- 参考スコア(独自算出の注目度): 9.192222166687227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logical reasoning serves as a cornerstone for human cognition. Recently, the emergence of Large Language Models (LLMs) has demonstrated promising progress in solving logical reasoning tasks effectively. To improve this capability, recent studies have delved into integrating LLMs with various symbolic solvers using diverse techniques and methodologies. While some combinations excel on specific datasets, others fall short. However, it remains unclear whether the variance in performance stems from the methodologies employed or the specific symbolic solvers utilized. Therefore, there is a lack of consistent comparison between symbolic solvers and how they influence LLM's logical reasoning ability. We perform experiments on LLMs integrated with 3 symbolic solvers: Z3, Pyke, and Prover9, and compare their performance on 3 logical reasoning datasets: ProofWriter, PrOntoQA, and FOLIO. Our findings indicate that when combined with LLMs Pyke's performance is significantly inferior to that of Prover9 and Z3. Z3's overall accuracy performance slightly surpasses Prover9, but Prover9 could execute more questions.
- Abstract(参考訳): 論理的推論は人間の認知の基礎となる。
近年,Large Language Models (LLMs) の出現は論理的推論タスクを効果的に解く上で有望な進歩を示している。
この能力を改善するために、近年の研究では、多様な技術や方法論を用いて、LLMを様々な記号解法と統合する研究が進められている。
いくつかの組み合わせは特定のデータセットで優れているが、他の組み合わせは不足している。
しかし, 性能のばらつきが, 使用する手法や特定の記号解法に起因しているかどうかは不明である。
したがって、記号的解法とLLMの論理的推論能力にどのように影響するかは、一貫した比較が欠如している。
我々は、Z3、Pyke、Prover9の3つのシンボリック・ソルバと統合されたLLMの実験を行い、ProofWriter、PrOntoQA、FOLIOの3つの論理推論データセットのパフォーマンスを比較した。
以上の結果から,LLMと組み合わせた場合,Pykeの性能はProver9とZ3に比べ有意に劣ることがわかった。
Z3の全体的な精度はProver9をわずかに上回ったが、Prover9はより多くの質問を実行できる。
関連論文リスト
- Frugal LMs Trained to Invoke Symbolic Solvers Achieve
Parameter-Efficient Arithmetic Reasoning [36.8749786658624]
大規模言語モデル(LLM)は、スケールで発生した振る舞いとしてゼロショットの数学的推論能力を示す。
算術語問題を正規化テーマ解決タスクとして提案した場合,小さいLMでは合理的な算術的推論が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-09T13:20:49Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。
1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。
他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。
具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-11-16T11:26:21Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z) - Improved Logical Reasoning of Language Models via Differentiable
Symbolic Programming [12.984852480664378]
事前訓練された大規模言語モデル(LM)は、スケールと構成性の進歩にもかかわらず、論理的推論を確実に行うのに苦労する。
本稿では,DSR-LMを提案する。DSR-LMは,事前学習したLMが事実知識の認識を制御し,帰納的推論を行う,微分可能なシンボリック推論フレームワークである。
論文 参考訳(メタデータ) (2023-05-05T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。