論文の概要: SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2505.16368v1
- Date: Thu, 22 May 2025 08:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.14444
- Title: SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning
- Title(参考訳): SATURN:SATによる言語モデル推論の強化学習
- Authors: Huanyu Liu, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong, Ge Li,
- Abstract要約: 既存の強化学習タスクはスケーラビリティ、検証可能性、制御困難に悩まされている。
本研究では,SAT を用いた SAT (Boolean Satisfiability) 問題を用いて LLM 推論の学習と評価を行う SAT ベースの RL フレームワークである Saturn を提案する。
- 参考スコア(独自算出の注目度): 31.11226495257566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to design reinforcement learning (RL) tasks that effectively unleash the reasoning capability of large language models (LLMs) remains an open question. Existing RL tasks (e.g., math, programming, and constructing reasoning tasks) suffer from three key limitations: (1) Scalability. They rely heavily on human annotation or expensive LLM synthesis to generate sufficient training data. (2) Verifiability. LLMs' outputs are hard to verify automatically and reliably. (3) Controllable Difficulty. Most tasks lack fine-grained difficulty control, making it hard to train LLMs to develop reasoning ability from easy to hard. To address these limitations, we propose Saturn, a SAT-based RL framework that uses Boolean Satisfiability (SAT) problems to train and evaluate LLM reasoning. Saturn enables scalable task construction, rule-based verification, and precise difficulty control. Saturn designs a curriculum learning pipeline that continuously improves LLMs' reasoning capability by constructing SAT tasks of increasing difficulty and training LLMs from easy to hard. To ensure stable training, we design a principled mechanism to control difficulty transitions. We introduce Saturn-2.6k, a dataset of 2,660 SAT problems with varying difficulty. It supports the evaluation of how LLM reasoning changes with problem difficulty. We apply Saturn to DeepSeek-R1-Distill-Qwen and obtain Saturn-1.5B and Saturn-7B. We achieve several notable results: (1) On SAT problems, Saturn-1.5B and Saturn-7B achieve average pass@3 improvements of +14.0 and +28.1, respectively. (2) On math and programming tasks, Saturn-1.5B and Saturn-7B improve average scores by +4.9 and +1.8 on benchmarks (e.g., AIME, LiveCodeBench). (3) Compared to the state-of-the-art (SOTA) approach in constructing RL tasks, Saturn achieves further improvements of +8.8%. We release the source code, data, and models to support future research.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力を効果的に解き放つ強化学習(RL)タスクをどのように設計するかは、未解決の問題である。
既存のRLタスク(数学、プログラミング、推論タスクの構築など)は、(1)スケーラビリティの3つの重要な制限に悩まされている。
彼らは十分なトレーニングデータを生成するために、人間のアノテーションや高価なLCM合成に大きく依存している。
2)検証可能。
LLMの出力は自動的かつ確実な検証が難しい。
(3)コントロール可能な難易度。
ほとんどのタスクはきめ細かい難易度制御を欠いているため、LSMを訓練して推論能力を簡単に向上させることが困難である。
これらの制約に対処するために,SAT を用いた SAT (Boolean Satisfiability) 問題を用いて LLM 推論の学習と評価を行う SAT ベースの RL フレームワークである Saturn を提案する。
サターンはスケーラブルなタスク構築、ルールベースの検証、正確な難易度制御を可能にする。
土星はLSMの推論能力を継続的に改善するカリキュラム学習パイプラインを設計し、SATタスクを構築して難易度を高め、LSMを困難から困難まで訓練する。
安定したトレーニングを確保するため、我々は難易度遷移を制御するための原則的なメカニズムを設計する。
サターン-2.6kは、2,660のSAT問題のデータセットであり、難易度は様々である。
LLM推論が問題困難な場合にどのように変化するかの評価を支援する。
我々は、DeepSeek-R1-Distill-Qwenに土星を応用し、土星1.5Bと土星-7Bを得る。
1)SAT問題では,土星-1.5Bと土星-7Bはそれぞれ+14.0と+28.1の平均パス@3の改善を達成した。
2)数学やプログラミングのタスクでは、土星1.5Bと土星-7Bはベンチマーク(例えば、AIME、LiveCodeBench)の平均スコアを+4.9と+1.8に改善する。
(3)RLタスク構築におけるSOTA(State-of-the-art)アプローチと比較して、土星は+8.8%のさらなる改善を達成している。
将来の研究をサポートするために、ソースコード、データ、モデルをリリースします。
関連論文リスト
- Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models [78.06537464850538]
シミュレーションは,実画像に翻訳する空間的適性を与えるのに驚くほど効果的であることを示す。
シミュレーションにおける完全アノテーションは、擬似アノテーション実画像の既存のアプローチよりも効果的であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:52:45Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Can Large Language Models Reason? A Characterization via 3-SAT [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。
近年の研究では、LLMは、しばしばショートカットを使用した真の推論を回避し、懐疑論を引き起こすことが示されている。
本稿では,論理的推論と制約満足度タスクの中核に位置するNP完全問題である 3-SAT を中心にした実験プロトコルを提案する。
論文 参考訳(メタデータ) (2024-08-13T21:54:10Z) - Machine Learning for SAT: Restricted Heuristics and New Graph
Representations [0.8870188183999854]
SATは、自動スケジューリングを含む多くのアプリケーションにおいて、基本的なNP完全問題である。
大きなインスタンスを解決するためには、SATソルバは、例えばDPLLとCDCLソルバの分岐変数を選択するなど、ブールアンに依存する必要がある。
我々は、訓練されたMLモデルでいくつかの初期ステップを行い、古典的なランタイムに制御をリリースする戦略を提案する。
論文 参考訳(メタデータ) (2023-07-18T10:46:28Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。