論文の概要: Enhancing Logical Reasoning in Language Models via Symbolically-Guided Monte Carlo Process Supervision
- arxiv url: http://arxiv.org/abs/2505.20415v1
- Date: Mon, 26 May 2025 18:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.231661
- Title: Enhancing Logical Reasoning in Language Models via Symbolically-Guided Monte Carlo Process Supervision
- Title(参考訳): 記号誘導モンテカルロプロセススーパービジョンによる言語モデルにおける論理推論の強化
- Authors: Xingwei Tan, Marco Valentino, Mahmud Akhter, Maria Liakata, Nikolaos Aletras,
- Abstract要約: 大規模言語モデル(LLM)は、数学的および論理的推論ベンチマークにおいて有望な性能を示している。
LLMは内容のバリエーションに影響を受けやすいため、その推論プロセスをサポートする堅牢な象徴的抽象化が欠如していることが示される。
既存のアプローチでは、信頼性とスケーラブルな検証メカニズムの開発に関わる課題のために、シンボル表現を効果的に活用できない。
- 参考スコア(独自算出の注目度): 38.592071445554836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have shown promising performance in mathematical and logical reasoning benchmarks. However, recent studies have pointed to memorization, rather than generalization, as one of the leading causes for such performance. LLMs, in fact, are susceptible to content variations, demonstrating a lack of robust symbolic abstractions supporting their reasoning process. To improve reliability, many attempts have been made to combine LLMs with symbolic methods. Nevertheless, existing approaches fail to effectively leverage symbolic representations due to the challenges involved in developing reliable and scalable verification mechanisms. In this paper, we propose to overcome such limitations by generating symbolic reasoning trajectories and select the high-quality ones using a process reward model automatically tuned based on Monte Carlo estimation. The trajectories are then employed via fine-tuning methods to improve logical reasoning and generalization. Our results on logical reasoning benchmarks such as FOLIO and LogicAsker show the effectiveness of the proposed method with large gains on frontier and open-weight models. Moreover, additional experiments on claim verification reveal that fine-tuning on the generated symbolic reasoning trajectories enhances out-of-domain generalizability, suggesting the potential impact of symbolically-guided process supervision in alleviating the effect of memorization on LLM reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的および論理的推論ベンチマークにおいて有望な性能を示している。
しかし、近年の研究では、そのようなパフォーマンスの主因の1つとして、一般化よりも記憶が指摘されている。
実際、LLMは内容のバリエーションに影響を受けやすく、彼らの推論プロセスをサポートする堅牢な象徴的抽象概念の欠如を示している。
信頼性を向上させるため、LLMとシンボリックメソッドを組み合わせるために多くの試みがなされている。
それでも既存のアプローチでは、信頼性とスケーラブルな検証メカニズムの開発に関わる課題のために、シンボル表現を効果的に活用できない。
本稿では,モンテカルロ推定に基づいて自動調整されたプロセス報酬モデルを用いて,記号的推論軌道を生成することにより,そのような制約を克服することを提案する。
軌道は、論理的推論と一般化を改善するための微調整法によって用いられる。
FOLIO や LogicAsker などの論理的推論ベンチマークの結果は,フロンティアモデルとオープンウェイトモデルにおいて,提案手法の有効性を示す。
さらに、クレーム検証に関する追加実験により、生成されたシンボリック推論軌跡の微調整により領域外一般化性が向上し、LLM推論に対する暗記の効果を軽減するためのシンボリック誘導プロセス監視の潜在的影響が示唆された。
関連論文リスト
- Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
バッチ推論前のウォームアップフェーズにおいて,LLMの論理的推論能力を高めるために,Reversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - Thought-Like-Pro: Enhancing Reasoning of Large Language Models through Self-Driven Prolog-based Chain-of-Thought [31.964412924094656]
大規模言語モデル(LLM)は汎用アシスタントとして非常に優れた性能を示している。
多様な推論タスクにおける学習と一般化を容易にする新しい学習フレームワークTHOUGHT-LIKE-PROを導入する。
実験結果から,本手法はLLMの推論能力を大幅に向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-18T18:52:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。