論文の概要: LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers
- arxiv url: http://arxiv.org/abs/2310.15164v2
- Date: Wed, 14 Feb 2024 18:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 19:22:24.108660
- Title: LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers
- Title(参考訳): LINC:一階論理子と言語モデルを組み合わせた論理的推論のためのニューロシンボリックアプローチ
- Authors: Theo X. Olausson and Alex Gu and Benjamin Lipkin and Cedegao E. Zhang
and Armando Solar-Lezama and Joshua B. Tenenbaum and Roger Levy
- Abstract要約: 論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
- 参考スコア(独自算出の注目度): 60.009969929857704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logical reasoning, i.e., deductively inferring the truth value of a
conclusion from a set of premises, is an important task for artificial
intelligence with wide potential impacts on science, mathematics, and society.
While many prompting-based strategies have been proposed to enable Large
Language Models (LLMs) to do such reasoning more effectively, they still appear
unsatisfactory, often failing in subtle and unpredictable ways. In this work,
we investigate the validity of instead reformulating such tasks as modular
neurosymbolic programming, which we call LINC: Logical Inference via
Neurosymbolic Computation. In LINC, the LLM acts as a semantic parser,
translating premises and conclusions from natural language to expressions in
first-order logic. These expressions are then offloaded to an external theorem
prover, which symbolically performs deductive inference. Leveraging this
approach, we observe significant performance gains on FOLIO and a balanced
subset of ProofWriter for three different models in nearly all experimental
conditions we evaluate. On ProofWriter, augmenting the comparatively small
open-source StarCoder+ (15.5B parameters) with LINC even outperforms GPT-3.5
and GPT-4 with Chain-of-Thought (CoT) prompting by an absolute 38% and 10%,
respectively. When used with GPT-4, LINC scores 26% higher than CoT on
ProofWriter while performing comparatively on FOLIO. Further analysis reveals
that although both methods on average succeed roughly equally often on this
dataset, they exhibit distinct and complementary failure modes. We thus provide
promising evidence for how logical reasoning over natural language can be
tackled through jointly leveraging LLMs alongside symbolic provers. All
corresponding code is publicly available at https://github.com/benlipkin/linc
- Abstract(参考訳): 論理的推論、すなわち、前提から結論の真理値を推論することは、科学、数学、社会に大きな影響を与える可能性がある人工知能にとって重要なタスクである。
LLM(Large Language Models)がそのような推論をより効果的に行うためのプロンプトベースの戦略が提案されているが、それでも不満足に見え、しばしば微妙で予測不可能な方法で失敗する。
本稿では,モジュール型神経シンボリックプログラミング (linc: logical inference via neurosymbolic computation) とよばれるタスクを再構成することの有効性について検討する。
LINCでは、LLMはセマンティックパーザとして機能し、前提と結論を自然言語から一階述語論理の式に翻訳する。
これらの式は、デダクティブ推論を象徴する外部定理証明器にオフロードされる。
このアプローチを活用することで、ほぼ全ての実験条件下で、FOLIOとProofWriterのバランスの取れたサブセットの3つのモデルに対する大幅なパフォーマンス向上が観察できる。
ProofWriterでは、比較的小さなオープンソースのStarCoder+ (15.5Bパラメータ)をLINCで拡張し、それぞれ38%と10%の確率でGPT-3.5とGPT-4より優れている。
GPT-4を使用すると、LINCはProofWriterではCoTよりも26%高く、FOLIOでは比較的高いスコアを示した。
さらなる分析により、両手法ともこのデータセットでほぼ同じ頻度で成功するが、それぞれ異なる、補完的な障害モードを示すことが判明した。
そこで我々は,LLMを記号型プロデューサと併用することで,自然言語に対する論理的推論にどのように取り組むことができるかを示す有望な証拠を提供する。
すべての対応するコードはhttps://github.com/benlipkin/lincで公開されている。
関連論文リスト
- P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models [10.106408289179463]
本稿では,入力コンテキストから拡張論理情報を生成するために,命題論理を利用するロジック・オブ・ソート(LoT)プロンプトを提案する。
LoTは5つの論理的推論タスクで顕著なマージンで、様々なプロンプトメソッドのパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-09-26T04:59:45Z) - LOGIC-LM++: Multi-Step Refinement for Symbolic Formulations [1.024113475677323]
本稿では Logic-LM++ を改良した Logic-LM++ を提案する。
LLMの機能をペアで比較し、LLMが提案する改善点の評価を可能にする。
論文 参考訳(メタデータ) (2024-06-22T12:50:41Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - NL2FOL: Translating Natural Language to First-Order Logic for Logical Fallacy Detection [45.28949266878263]
本研究では,自然言語を一階論理に変換することによって,論理的誤りを確実に検出する手法を設計する。
次に、満足度モデュロ理論(SMT)を用いて、式の有効性を推論する。
私たちのアプローチは堅牢で解釈可能で、トレーニングデータや微調整は必要ありません。
論文 参考訳(メタデータ) (2024-04-18T00:20:48Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。