論文の概要: SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs
- arxiv url: http://arxiv.org/abs/2509.00930v1
- Date: Sun, 31 Aug 2025 16:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.468219
- Title: SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs
- Title(参考訳): SATQuest: LLMの論理的推論評価と強化細調整のための検証器
- Authors: Yanxiao Zhao, Yaqian Li, Zihao Bo, Rinyoichi Takezoe, Haojia Hui, Mo Guang, Lei Ren, Xiaolin Qin, Kaiwen Long,
- Abstract要約: 大規模言語モデル(LLM)における論理的推論の評価と強化を目的とした体系的検証器SATQuestを紹介する。
SATQuestは、Conjunctive Normal Form(CNF)インスタンスから直接、多様な満足度に基づく論理的推論問題を生成する。
SATQuest報酬を用いた強化微調整により,タスク性能が大幅に向上し,より複雑なインスタンスに一般化できることを示す。
- 参考スコア(独自算出の注目度): 14.898755761727125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have demonstrated remarkable general reasoning capabilities. However, systematically evaluating and enhancing these reasoning capabilities is challenging due to the lack of controllable and scalable tools for fine-grained analysis. Existing benchmarks and datasets often lack the necessary variable control for multi-dimensional, systematic analysis and training, or have narrow problem types and formats. To address these limitations, we introduce SATQuest, a systematic verifier designed to evaluate and enhance logical reasoning in LLMs by generating diverse, Satisfiability-based logical reasoning problems directly from Conjunctive Normal Form (CNF) instances. SATQuest structures these problems along three orthogonal dimensions: instance scale, problem type, and question format, employing randomized, SAT-based problem generation and objective answer verification via PySAT. This design mitigates memorization issues, allows for nuanced insights into reasoning performance, and enables effective reinforcement fine-tuning. Our extensive evaluation of various LLMs using SATQuest identified significant limitations in their logical reasoning, particularly in generalizing beyond familiar mathematical formats. Furthermore, we show that reinforcement fine-tuning with SATQuest rewards substantially improves targeted task performance and generalizes to more complex instances, while highlighting remaining challenges in cross-format adaptation. Through these demonstrations, we showcase SATQuest's potential as a foundational tool and a valuable starting point for advancing LLM logical reasoning.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は、顕著な一般的な推論能力を示している。
しかし、これらの推論能力の体系的評価と強化は、きめ細かい分析を行うための制御可能でスケーラブルなツールが欠如しているため、難しい。
既存のベンチマークとデータセットは、多次元、体系的な分析とトレーニングに必要な変数制御を欠いている場合が多い。
これらの制約に対処するため、SATQuestは、多種多様な満足度に基づく論理的推論問題をConjunctive Normal Form (CNF) インスタンスから直接生成することにより、LCMの論理的推論を評価し、向上するように設計された体系的検証器である。
SATQuestは、これらの問題を3つの直交次元(インスタンススケール、問題タイプ、質問形式)に沿って構成し、ランダム化されたSATベースの問題生成とPySATによる客観的回答検証を利用する。
この設計は、記憶の問題を緩和し、推論性能に関する微妙な洞察を可能にし、効果的な強化微調整を可能にする。
SATQuest を用いた様々な LLM の広範な評価により,その論理的推論,特によく知られた数学的形式を超越した一般化において,大きな限界が認められた。
さらに,SATQuest報酬を用いた強化微調整により,タスク性能が大幅に向上し,より複雑なインスタンスへの一般化が図られるとともに,クロスフォーマット適応における課題も浮き彫りにされている。
これらの実演を通して,SATQuestの基本的なツールとしての可能性を示し,LLM論理的推論を推し進める上で貴重な出発点であることを示す。
関連論文リスト
- LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。
この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。
本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:40:47Z) - SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas [16.721380234044027]
SATBenchは、大規模言語モデル(LLM)の論理的推論能力を評価するためのベンチマークである。
SATBenchの各インスタンスはSAT式から生成され、LLMを使用してストーリーコンテキストと条件に変換される。
実験によると、最強のモデルであるo4-miniでさえ、ハードUNSAT問題において65.0%の精度しか達成していない。
論文 参考訳(メタデータ) (2025-05-20T17:00:22Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning [6.092556069430351]
本稿では,ニューロシンボリック推論の新しい枠組みであるVERUS-LMを紹介する。
VERUS-LMは汎用的なプロンプト機構を採用し、クエリからドメイン知識を明確に分離する。
提案手法は,LLMを著しく上回る,新しいデータセットの多種多様な推論に成功していることを示す。
論文 参考訳(メタデータ) (2025-01-24T14:45:21Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。