論文の概要: Making LLMs Reason? The Intermediate Language Problem in Neurosymbolic Approaches
- arxiv url: http://arxiv.org/abs/2502.17216v1
- Date: Mon, 24 Feb 2025 14:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:14.507834
- Title: Making LLMs Reason? The Intermediate Language Problem in Neurosymbolic Approaches
- Title(参考訳): LLMを推論する : ニューロシンボリックアプローチにおける中間言語問題
- Authors: Alexander Beiser, David Penz,
- Abstract要約: 本稿では、ニューロシンボリックアプローチに適した形式言語表現を選択する問題である中間言語問題を紹介する。
全体の精度は53.20%、実行精度は49.26%である。
GPT4o-mini LLMを使用すると、ProofWriterデータセットの全体的な精度が21.20%、50.50%向上する。
- 参考スコア(独自算出の注目度): 49.567092222782435
- License:
- Abstract: Logical reasoning tasks manifest themselves as a challenge to Large Language Models (LLMs). Neurosymbolic approaches use LLMs to translate logical reasoning problems formulated in natural language into a formal intermediate language. Subsequently, the usage of symbolic reasoners yields reliable solving thereof. However, LLMs often fail in translation due to poorly chosen intermediate languages. We introduce the intermediate language problem, which is the problem of choosing a suitable formal language representation for neurosymbolic approaches. Theoretically, we argue that its origins lie in the inability of LLMs to distinguish syntax from semantics and the relative independence of the problem from its representation. We showcase its existence experimentally by contrasting two intermediate languages, Answer Set Programming and the Python Knowledge Engine. In addition, we demonstrate the effects of varying degrees of supplementary context information. Our results show a maximum difference in overall-accuracy of 53.20% and 49.26% in execution-accuracy. When using the GPT4o-mini LLM we beat the state-of-the-art in overall-accuracy on the ProntoQA dataset by 21.20% and by 50.50% on the ProofWriter dataset.
- Abstract(参考訳): 論理的推論タスクは、Large Language Models (LLM) への挑戦として現れます。
ニューロシンボリックアプローチはLLMを用いて、自然言語で定式化された論理的推論問題を形式的な中間言語に翻訳する。
その後、記号的推論器の使用により、その信頼性の高い解法が得られる。
しかし、LLMは中間言語が貧弱なため翻訳に失敗することが多い。
本稿では、ニューロシンボリックアプローチに適した形式言語表現を選択する問題である中間言語問題を紹介する。
理論的には、その起源は、文法と意味論とを区別するLLMの能力の欠如と、問題の相対的な独立性をその表現と区別することにあると論じる。
我々は、Answer Set ProgrammingとPython Knowledge Engineという2つの中間言語を対比して、その存在を実験的に示す。
さらに,補助的文脈情報の影響についても検討した。
その結果, 実行精度は53.20%, 実行精度は49.26%であった。
GPT4o-mini LLMを使用すると、ProofWriterデータセットの全体的な精度が21.20%、50.50%向上する。
関連論文リスト
- Reliable Reasoning Beyond Natural Language [0.047888359248129786]
大きな言語モデル(LLM)は、しばしば、確実に柔軟に推論する能力の限界を示す。
本稿では,問題文から全ての関連情報を論理コード文として抽出し,エンコードする手法を提案する。
次に、論理型プログラミング言語(Prolog)を用いて、明示的な推論の反復的な計算を行う。
論文 参考訳(メタデータ) (2024-07-16T04:34:18Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Frugal LMs Trained to Invoke Symbolic Solvers Achieve
Parameter-Efficient Arithmetic Reasoning [36.8749786658624]
大規模言語モデル(LLM)は、スケールで発生した振る舞いとしてゼロショットの数学的推論能力を示す。
算術語問題を正規化テーマ解決タスクとして提案した場合,小さいLMでは合理的な算術的推論が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-09T13:20:49Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。