論文の概要: A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters
- arxiv url: http://arxiv.org/abs/2406.00284v2
- Date: Thu, 11 Jul 2024 05:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:28:14.820778
- Title: A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters
- Title(参考訳): LLMによる論理的推論 - ツール項目の選択
- Authors: Long Hei Matthew Lam, Ramya Keerthy Thatikonda, Ehsan Shareghi,
- Abstract要約: 論理的推論へのアプローチの性能のばらつきが、採用法や特定の記号解法に起因しているかどうかは不明である。
Z3,Pyke,Prover9の3つの帰納的推論ベンチマークとLarge Language Modelsを併用した実験を行った。
異なるLLMによって生成される記号翻訳のツール実行速度は、ほぼ50%の性能変化を示す。
- 参考スコア(独自算出の注目度): 8.178862820609297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Large Language Models (LLMs) has demonstrated promising progress in solving logical reasoning tasks effectively. Several recent approaches have proposed to change the role of the LLM from the reasoner into a translator between natural language statements and symbolic representations which are then sent to external symbolic solvers to resolve. This paradigm has established the current state-of-the-art result in logical reasoning (i.e., deductive reasoning). However, it remains unclear whether the variance in performance of these approaches stems from the methodologies employed or the specific symbolic solvers utilized. There is a lack of consistent comparison between symbolic solvers and how they influence the overall reported performance. This is important, as each symbolic solver also has its own input symbolic language, presenting varying degrees of challenge in the translation process. To address this gap, we perform experiments on 3 deductive reasoning benchmarks with LLMs augmented with widely used symbolic solvers: Z3, Pyke, and Prover9. The tool-executable rates of symbolic translation generated by different LLMs exhibit a near 50% performance variation. This highlights a significant difference in performance rooted in very basic choices of tools. The almost linear correlation between the executable rate of translations and the accuracy of the outcomes from Prover9 highlight a strong alignment between LLMs ability to translate into Prover9 symbolic language, and the correctness of those translations.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、論理的推論タスクを効果的に解く上で、有望な進歩を示している。
いくつかの最近のアプローチでは、LLMの役割を推論子から自然言語文と記号表現の間の翻訳子に変更し、それを解決するために外部シンボルソルバに送信する提案がなされている。
このパラダイムは、論理的推論(すなわち帰納的推論)の現在の最先端の結果を確立した。
しかし,これらの手法の性能のばらつきが,特定の記号解法を応用した手法に起因しているかどうかは不明である。
シンボリック・ソルバとそれらが報告された全体的なパフォーマンスにどのように影響するかは、一貫した比較が欠如している。
これは、各シンボリックソルバが独自の入力シンボリック言語を持ち、翻訳過程における様々なチャレンジの度合いを示すため重要である。
このギャップを解決するために、我々は、広く使われている記号解法であるZ3、Pyke、Prover9で拡張されたLLMを用いた3つの帰納的推論ベンチマークの実験を行った。
異なるLLMによって生成される記号翻訳のツール実行速度は、ほぼ50%の性能変化を示す。
これは、ツールの非常に基本的な選択に根ざした、パフォーマンスの大きな違いを強調します。
翻訳の実行速度とProver9の結果の精度のほぼ線形な相関は、LLMがProver9のシンボリック言語に翻訳する能力とそれらの翻訳の正確性の間に強い整合性を示す。
関連論文リスト
- Frugal LMs Trained to Invoke Symbolic Solvers Achieve
Parameter-Efficient Arithmetic Reasoning [36.8749786658624]
大規模言語モデル(LLM)は、スケールで発生した振る舞いとしてゼロショットの数学的推論能力を示す。
算術語問題を正規化テーマ解決タスクとして提案した場合,小さいLMでは合理的な算術的推論が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-09T13:20:49Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。
1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。
他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。
具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-11-16T11:26:21Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z) - Improved Logical Reasoning of Language Models via Differentiable
Symbolic Programming [12.984852480664378]
事前訓練された大規模言語モデル(LM)は、スケールと構成性の進歩にもかかわらず、論理的推論を確実に行うのに苦労する。
本稿では,DSR-LMを提案する。DSR-LMは,事前学習したLMが事実知識の認識を制御し,帰納的推論を行う,微分可能なシンボリック推論フレームワークである。
論文 参考訳(メタデータ) (2023-05-05T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。