論文の概要: Training LLMs with LogicReward for Faithful and Rigorous Reasoning
- arxiv url: http://arxiv.org/abs/2512.18196v1
- Date: Sat, 20 Dec 2025 03:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.2263
- Title: Training LLMs with LogicReward for Faithful and Rigorous Reasoning
- Title(参考訳): 忠実かつ厳密な推論のためのLogicRewardを用いたLDMの訓練
- Authors: Jundong Xu, Hao Fei, Huichi Zhou, Xin Quan, Qijun Huang, Shengqiong Wu, William Yang Wang, Mong-Li Lee, Wynne Hsu,
- Abstract要約: 定理証明器を用いてステップレベルの論理的正しさを強制することでモデルトレーニングを指導する報酬システムであるLogicRewardを提案する。
LogicRewardで構築されたデータに基づいてトレーニングされた8Bモデルは、GPT-4oとo4-miniを11.6%、自然言語推論と論理的推論タスクで2%超えた。
- 参考スコア(独自算出の注目度): 75.30425553246177
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although LLMs exhibit strong reasoning capabilities, existing training methods largely depend on outcome-based feedback, which can produce correct answers with flawed reasoning. Prior work introduces supervision on intermediate steps but still lacks guarantees of logical soundness, which is crucial in high-stakes scenarios where logical consistency is paramount. To address this, we propose LogicReward, a novel reward system that guides model training by enforcing step-level logical correctness with a theorem prover. We further introduce Autoformalization with Soft Unification, which reduces natural language ambiguity and improves formalization quality, enabling more effective use of the theorem prover. An 8B model trained on data constructed with LogicReward surpasses GPT-4o and o4-mini by 11.6\% and 2\% on natural language inference and logical reasoning tasks with simple training procedures. Further analysis shows that LogicReward enhances reasoning faithfulness, improves generalizability to unseen tasks such as math and commonsense reasoning, and provides a reliable reward signal even without ground-truth labels. We will release all data and code at https://llm-symbol.github.io/LogicReward.
- Abstract(参考訳): LLMには強い推論能力があるが、既存のトレーニング手法は結果に基づくフィードバックに大きく依存している。
従来の研究は中間段階の監督を導入しているが、論理的整合性が最重要である高いシナリオにおいて不可欠である論理的健全性の保証は依然として欠如している。
そこで本研究では,定理証明器を用いて段階レベルの論理的正当性を強制することにより,モデルトレーニングをガイドする新しい報酬システムであるLogicRewardを提案する。
さらに、自然言語のあいまいさを低減し、形式化品質を向上し、定理証明器のより効果的な利用を可能にするソフト統一によるオートフォーマル化についても紹介する。
LogicRewardで構築したデータに基づいてトレーニングされた8Bモデルは、簡単なトレーニング手順による自然言語推論および論理的推論タスクにおいて、GPT-4oとo4-miniを11.6\%、および2\%超えた。
さらに分析したところ、LogicRewardは推論の忠実度を高め、数学やコモンセンス推論のような見知らぬタスクへの一般化性を高め、地味ラベルを使わずに信頼できる報酬信号を提供する。
すべてのデータとコードをhttps://llm-symbol.github.io/LogicReward.orgでリリースします。
関連論文リスト
- Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [23.99454995087634]
大規模推論モデルにおけるルールベース強化学習の可能性について検討する。
合成論理パズルは, 制御可能な複雑性と簡単な解答検証により, 学習データとして用いられる。
我々の7Bモデルは、論理コーパスにはない、リフレクション、検証、要約のような高度な推論スキルを発達させる。
論文 参考訳(メタデータ) (2025-02-20T17:49:26Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - QA-NatVer: Question Answering for Natural Logic-based Fact Verification [11.002475880349452]
我々は自然論理演算子を予測するために質問応答を用いることを提案する。
FEVERのいくつかの設定では、我々のアプローチは最高のベースラインを4.3ドルの精度で上回っている。
人間の評価から,本手法は,従来の自然論理に基づくシステムよりも,誤動作の少ない自然論理演算子でより妥当であることが示唆された。
論文 参考訳(メタデータ) (2023-10-22T06:27:31Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。