論文の概要: Advancing Natural Language Formalization to First Order Logic with Fine-tuned LLMs
- arxiv url: http://arxiv.org/abs/2509.22338v1
- Date: Fri, 26 Sep 2025 13:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.458566
- Title: Advancing Natural Language Formalization to First Order Logic with Fine-tuned LLMs
- Title(参考訳): 微調整LDMを用いた一階述語論理への自然言語形式化の促進
- Authors: Felix Vossel, Till Mossakowski, Björn Gehrke,
- Abstract要約: 予測可用性はパフォーマンスを15~20%向上させる。
モデルは特定の訓練をせずに、目に見えない論理的議論に一般化する。
構造論理の翻訳は堅牢であるが、述語抽出が主要なボトルネックとして現れる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating the translation of natural language to first-order logic (FOL) is crucial for knowledge representation and formal methods, yet remains challenging. We present a systematic evaluation of fine-tuned LLMs for this task, comparing architectures (encoder-decoder vs. decoder-only) and training strategies. Using the MALLS and Willow datasets, we explore techniques like vocabulary extension, predicate conditioning, and multilingual training, introducing metrics for exact match, logical equivalence, and predicate alignment. Our fine-tuned Flan-T5-XXL achieves 70% accuracy with predicate lists, outperforming GPT-4o and even the DeepSeek-R1-0528 model with CoT reasoning ability as well as symbolic systems like ccg2lambda. Key findings show: (1) predicate availability boosts performance by 15-20%, (2) T5 models surpass larger decoder-only LLMs, and (3) models generalize to unseen logical arguments (FOLIO dataset) without specific training. While structural logic translation proves robust, predicate extraction emerges as the main bottleneck.
- Abstract(参考訳): 自然言語から一階述語論理(FOL)への翻訳を自動化することは、知識表現と形式的手法にとって重要であるが、依然として困難である。
本研究は,アーキテクチャ(エンコーダ・デコーダ対デコーダのみ)とトレーニング戦略を比較し,細調整LDMの体系的評価を行う。
MALLSとWilowのデータセットを使用して、語彙拡張、述語条件付け、多言語トレーニングといったテクニックを探求し、正確なマッチング、論理的等価性、述語アライメントのためのメトリクスを導入します。
我々の微調整されたFlan-T5-XXLは、述語リスト、GPT-4o、さらにはCoT推論能力を持つDeepSeek-R1-0528モデル、ccg2lambdaのようなシンボリックシステムで70%の精度を達成する。
鍵となる知見は,(1)予測可用性は性能を15~20%向上させ,(2)T5モデルはより大きなデコーダのみのLLMを上回り,(3)モデルは特定の訓練をせずに論理的引数(FOLIOデータセット)に一般化する。
構造論理の翻訳は堅牢であるが、述語抽出が主要なボトルネックとして現れる。
関連論文リスト
- Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning [4.071220436730322]
大規模言語モデル(LLM)は、主に高リソースの自然言語で訓練されている。
本研究はLLMの論理的推論と一般化能力を評価するためのベンチマークであるRosetta-PLを紹介する。
論文 参考訳(メタデータ) (2025-03-25T21:12:29Z) - DeepRTL: Bridging Verilog Understanding and Generation with a Unified Representation Model [13.532046953850902]
We present DeepRTL, a unified representation model that is excs in both Verilog understanding and generation。
CodeT5+に基づいて、DeepRTLは、Verilogコードをリッチでマルチレベルな自然言語記述と整合させる包括的なデータセットに基づいて微調整されている。
我々はVerilog理解のための最初のベンチマークを導入し、埋め込み類似性とGPTスコアを適用してモデルの理解能力を評価する。
論文 参考訳(メタデータ) (2025-02-20T11:07:55Z) - Learning Semantic Structure through First-Order-Logic Translation [4.005483185111992]
言語モデルは、どのオブジェクトに適用されるかの述語を混乱させることがある。
一般化能力を評価するために設計された合成データセット上で、いくつかの大きな言語モデルを微調整する。
その結果,LLMのFOL翻訳は述語構造を学習するのに適していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T07:39:34Z) - Reliable Reasoning Beyond Natural Language [0.047888359248129786]
大きな言語モデル(LLM)は、しばしば、確実に柔軟に推論する能力の限界を示す。
本稿では,問題文から全ての関連情報を論理コード文として抽出し,エンコードする手法を提案する。
次に、論理型プログラミング言語(Prolog)を用いて、明示的な推論の反復的な計算を行う。
論文 参考訳(メタデータ) (2024-07-16T04:34:18Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。