Fugu-MT 論文翻訳(概要): Improving Symbolic Translation of Language Models for Logical Reasoning

論文の概要: Improving Symbolic Translation of Language Models for Logical Reasoning

arxiv url: http://arxiv.org/abs/2601.09446v1
Date: Wed, 14 Jan 2026 12:47:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-15 18:59:20.400581
Title: Improving Symbolic Translation of Language Models for Logical Reasoning
Title（参考訳）: 論理推論のための言語モデルの記号変換の改善
Authors: Ramya Keerthy Thatikonda, Jiuzhou Han, Wray Buntine, Ehsan Shareghi,
Abstract要約: 小さな言語モデル(LM)は、しばしば自然言語(NL)を一階述語論理(FOL)に変換するのに苦労する。既存のアプローチは通常、これらのエラーを修正するために自己イテレーションに依存するが、そのような方法は基礎となるモデルの能力に大きく依存する。本稿では,予測を述語生成とFOL翻訳の2段階に分割し,モデル動作の制御性を高めるインクリメンタル推論を提案する。
参考スコア（独自算出の注目度）: 14.474630644806723
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of formal language for deductive logical reasoning aligns well with language models (LMs), where translating natural language (NL) into first-order logic (FOL) and employing an external solver results in a verifiable and therefore reliable reasoning system. However, smaller LMs often struggle with this translation task, frequently producing incorrect symbolic outputs due to formatting and translation errors. Existing approaches typically rely on self-iteration to correct these errors, but such methods depend heavily on the capabilities of the underlying model. To address this, we first categorize common errors and fine-tune smaller LMs using data synthesized by large language models. The evaluation is performed using the defined error categories. We introduce incremental inference, which divides inference into two stages, predicate generation and FOL translation, providing greater control over model behavior and enhancing generation quality as measured by predicate metrics. This decomposition framework also enables the use of a verification module that targets predicate-arity errors to further improve performance. Our study evaluates three families of models across four logical-reasoning datasets. The comprehensive fine-tuning, incremental inference, and verification modules reduce error rates, increase predicate coverage, and improve reasoning performance for smaller LMs, moving us closer to developing reliable and accessible symbolic-reasoning systems.
Abstract（参考訳）: 帰納論理推論のための形式言語の使用は言語モデル(LM)とよく一致しており、自然言語(NL)を一階論理(FOL)に翻訳し、外部ソルバを用いることで検証可能で信頼性の高い推論システムが得られる。しかし、小さなLMは、しばしばこの翻訳タスクに苦労し、しばしばフォーマットや翻訳エラーのために間違ったシンボル出力を生成する。既存のアプローチは通常、これらのエラーを修正するために自己イテレーションに依存するが、そのような方法は基礎となるモデルの能力に大きく依存する。そこで我々はまず,大規模言語モデルによって合成されたデータを用いて,一般的な誤りと微調整の小さいLMを分類する。決定されたエラーカテゴリを用いて評価を行う。本稿では,予測を述語生成とFOL翻訳の2段階に分割し,モデル行動の制御を向上し,述語メトリクスによって測定された生成品質を向上させるインクリメンタル推論を導入する。この分解フレームワークはまた、予測アリティエラーをターゲットとしてパフォーマンスをさらに向上する検証モジュールの使用を可能にする。本研究は、4つの論理推論データセットにまたがるモデルの3つのファミリーを評価する。総合的な微調整、インクリメンタル推論、検証モジュールはエラー率を低減し、述語カバレッジを向上し、より小さなLMの推論性能を改善し、信頼性とアクセシブなシンボリック推論システムの開発に近づいた。

関連論文リスト

Unlocking Reasoning Capability on Machine Translation in Large Language Models [57.60641851466707]
推論指向の大規模言語モデル(RLM)は、明示的な中間推論を生成することにより、数学やコーディングといったタスクに強い利益をもたらす。 WMT24++ベンチマークを用いて,オープンおよびクローズドヘビー級のRCMを系統的に評価した。明示的な推論を可能にすることは、言語やモデル間の翻訳品質を一貫して低下させる。
論文参考訳（メタデータ） (2026-02-16T14:05:59Z)
NL2LOGIC: AST-Guided Translation of Natural Language into First-Order Logic with Large Language Models [5.211983629897431]
我々は一階述語論理翻訳フレームワークNL2LOGICを提案する。 LogicNLIの実験では、抽象ProofWriterベンチマークにより、NL2LOGICは99%の構文的精度を実現し、最先端のベースラインに対して最大30%のセマンティックな正確性向上を実現している。 NL2LOGICをLogic-LMに組み込むことでほぼ完全な実行性が得られ、Logic-LMのオリジナルの数発の制約のない翻訳モジュールと比較して下流の推論精度が31%向上する。
論文参考訳（メタデータ） (2026-01-29T14:51:32Z)
Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文参考訳（メタデータ） (2026-01-01T08:53:49Z)
When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。 LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文参考訳（メタデータ） (2025-11-18T10:40:32Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文参考訳（メタデータ） (2025-02-25T16:44:10Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification [9.36179617282876]
GPT-4o を用いて ProofWriter データセットの高品質な FOL アノテーション付きサブセットを作成する。本稿では,LLaMA-2およびMistralモデル上でProofFOLを用いたProofWriterおよびProntoQAデータセットの最先端性能を示す。
論文参考訳（メタデータ） (2024-09-24T21:24:07Z)
Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5083201638203154]
Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。 LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。 LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文参考訳（メタデータ） (2024-08-28T18:25:35Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
Towards Fine-Grained Information: Identifying the Type and Location of Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文参考訳（メタデータ） (2023-02-17T16:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。