Fugu-MT 論文翻訳(概要): SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning

論文の概要: SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning

arxiv url: http://arxiv.org/abs/2505.16368v1
Date: Thu, 22 May 2025 08:23:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.14444
Title: SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning
Title（参考訳）: SATURN:SATによる言語モデル推論の強化学習
Authors: Huanyu Liu, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong, Ge Li,
Abstract要約: 既存の強化学習タスクはスケーラビリティ、検証可能性、制御困難に悩まされている。本研究では,SAT を用いた SAT (Boolean Satisfiability) 問題を用いて LLM 推論の学習と評価を行う SAT ベースの RL フレームワークである Saturn を提案する。
参考スコア（独自算出の注目度）: 31.11226495257566
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How to design reinforcement learning (RL) tasks that effectively unleash the reasoning capability of large language models (LLMs) remains an open question. Existing RL tasks (e.g., math, programming, and constructing reasoning tasks) suffer from three key limitations: (1) Scalability. They rely heavily on human annotation or expensive LLM synthesis to generate sufficient training data. (2) Verifiability. LLMs' outputs are hard to verify automatically and reliably. (3) Controllable Difficulty. Most tasks lack fine-grained difficulty control, making it hard to train LLMs to develop reasoning ability from easy to hard. To address these limitations, we propose Saturn, a SAT-based RL framework that uses Boolean Satisfiability (SAT) problems to train and evaluate LLM reasoning. Saturn enables scalable task construction, rule-based verification, and precise difficulty control. Saturn designs a curriculum learning pipeline that continuously improves LLMs' reasoning capability by constructing SAT tasks of increasing difficulty and training LLMs from easy to hard. To ensure stable training, we design a principled mechanism to control difficulty transitions. We introduce Saturn-2.6k, a dataset of 2,660 SAT problems with varying difficulty. It supports the evaluation of how LLM reasoning changes with problem difficulty. We apply Saturn to DeepSeek-R1-Distill-Qwen and obtain Saturn-1.5B and Saturn-7B. We achieve several notable results: (1) On SAT problems, Saturn-1.5B and Saturn-7B achieve average pass@3 improvements of +14.0 and +28.1, respectively. (2) On math and programming tasks, Saturn-1.5B and Saturn-7B improve average scores by +4.9 and +1.8 on benchmarks (e.g., AIME, LiveCodeBench). (3) Compared to the state-of-the-art (SOTA) approach in constructing RL tasks, Saturn achieves further improvements of +8.8%. We release the source code, data, and models to support future research.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論能力を効果的に解き放つ強化学習(RL)タスクをどのように設計するかは、未解決の問題である。既存のRLタスク(数学、プログラミング、推論タスクの構築など)は、(1)スケーラビリティの3つの重要な制限に悩まされている。彼らは十分なトレーニングデータを生成するために、人間のアノテーションや高価なLCM合成に大きく依存している。 2)検証可能。 LLMの出力は自動的かつ確実な検証が難しい。 (3)コントロール可能な難易度。ほとんどのタスクはきめ細かい難易度制御を欠いているため、LSMを訓練して推論能力を簡単に向上させることが困難である。これらの制約に対処するために,SAT を用いた SAT (Boolean Satisfiability) 問題を用いて LLM 推論の学習と評価を行う SAT ベースの RL フレームワークである Saturn を提案する。サターンはスケーラブルなタスク構築、ルールベースの検証、正確な難易度制御を可能にする。土星はLSMの推論能力を継続的に改善するカリキュラム学習パイプラインを設計し、SATタスクを構築して難易度を高め、LSMを困難から困難まで訓練する。安定したトレーニングを確保するため、我々は難易度遷移を制御するための原則的なメカニズムを設計する。サターン-2.6kは、2,660のSAT問題のデータセットであり、難易度は様々である。 LLM推論が問題困難な場合にどのように変化するかの評価を支援する。我々は、DeepSeek-R1-Distill-Qwenに土星を応用し、土星1.5Bと土星-7Bを得る。 1)SAT問題では,土星-1.5Bと土星-7Bはそれぞれ+14.0と+28.1の平均パス@3の改善を達成した。 2)数学やプログラミングのタスクでは、土星1.5Bと土星-7Bはベンチマーク(例えば、AIME、LiveCodeBench)の平均スコアを+4.9と+1.8に改善する。 (3)RLタスク構築におけるSOTA(State-of-the-art)アプローチと比較して、土星は+8.8%のさらなる改善を達成している。将来の研究をサポートするために、ソースコード、データ、モデルをリリースします。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。近年の研究では、LSMは、この能力にもかかわらず、理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
論文参考訳（メタデータ） (2025-04-04T20:57:36Z)
DAST: Difficulty-Aware Self-Training on Large Language Models [68.30467836807362]
大規模言語モデル(LLM)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルである。本研究は,自己生成応答の量と品質を改善することに焦点を当てた,難易度を考慮した自己学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-12T03:36:45Z)
SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models [78.06537464850538]
シミュレーションは,実画像に翻訳する空間的適性を与えるのに驚くほど効果的であることを示す。シミュレーションにおける完全アノテーションは、擬似アノテーション実画像の既存のアプローチよりも効果的であることを示す。
論文参考訳（メタデータ） (2024-12-10T18:52:45Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
Can Large Language Models Reason? A Characterization via 3-SAT [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。近年の研究では、LLMは、しばしばショートカットを使用した真の推論を回避し、懐疑論を引き起こすことが示されている。本稿では,論理的推論と制約満足度タスクの中核に位置するNP完全問題である 3-SAT を中心にした実験プロトコルを提案する。
論文参考訳（メタデータ） (2024-08-13T21:54:10Z)
Machine Learning for SAT: Restricted Heuristics and New Graph Representations [0.8870188183999854]
SATは、自動スケジューリングを含む多くのアプリケーションにおいて、基本的なNP完全問題である。大きなインスタンスを解決するためには、SATソルバは、例えばDPLLとCDCLソルバの分岐変数を選択するなど、ブールアンに依存する必要がある。我々は、訓練されたMLモデルでいくつかの初期ステップを行い、古典的なランタイムに制御をリリースする戦略を提案する。
論文参考訳（メタデータ） (2023-07-18T10:46:28Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。