論文の概要: Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
- arxiv url: http://arxiv.org/abs/2605.06638v2
- Date: Sun, 10 May 2026 20:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 16:21:29.403315
- Title: Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
- Title(参考訳): LLはLLMにロングホライズンを学ばせるか?
- Authors: Tianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov,
- Abstract要約: 本稿では,2軸の難易度を独立に制御する合成論理推論フレームワークであるScaleLogicを紹介する。
RLのトレーニング計算である$T$は、推論深度に関する電力法則に従うことを示す。
より表現力のあるトレーニング設定は、より大きなパフォーマンス向上とより計算効率の高い転送をもたらす。
- 参考スコア(独自算出の注目度): 10.342627180897313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been applied to improve large language model (LLM) reasoning, yet the systematic study of how training scales with task difficulty has been hampered by the lack of controlled, scalable environments. Observed LLM shortcomings in long-horizon reasoning have raised the prospect that these shortcomings are fundamental to the autoregressive transformer architecture. We introduce ScaleLogic, a synthetic logical reasoning framework that offers independent control over two axes of difficulty: the depth of the required proof planning (i.e., the horizon) and the expressiveness of the underlying logic. Our proposed framework supports a wide range of logics: from simple implication-only logic ("if-then") towards more expressive first-order reasoning with conjunction ("and"), disjunction ("or"), negation ("not"), and universal quantification ("for all"). Using this framework, we show that the RL training compute $T$ follows a power law with respect to reasoning depth $D$ ($T \propto D^γ$, $R^{2} > 0.99$), and that the scaling exponent $γ$ increases monotonically with logical expressiveness, from $1.04$ to $2.60$. On downstream mathematics and general reasoning benchmarks, more expressive training settings yield both larger performance gains (up to $+10.66$ points) and more compute-efficient transfer compared to less expressive settings, demonstrating that what a model is trained on, not just how much it is trained, shapes downstream transfer. We further show that the power-law relationship holds across multiple RL methods, and curriculum-based training substantially improves scaling efficiency. More broadly, our results demonstrate that LLM shortcomings in long-horizon reasoning are not fundamental to the underlying architecture, and can be addressed by improved training methodology and data.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)推論の改善に応用されているが、制御されたスケーラブルな環境の欠如により、タスク困難を伴うトレーニングスケールの体系的研究が妨げられている。
長期的推論におけるLLMの欠点は、これらの欠点が自己回帰型トランスフォーマーアーキテクチャの基本であることを示唆している。
本稿では,2つの難解な軸を独立に制御する合成論理推論フレームワークであるScaleLogicを紹介した。
提案するフレームワークは、単純な含意のみの論理(if-then)から、結合(and)によるより表現力のある一階述語推論(and)、解法(or)、否定(not)、普遍的定量化(all)まで、幅広いロジックをサポートしている。
このフレームワークを用いて、RLトレーニング計算の$T$は深度$D$(T \propto D^γ$, $R^{2} > 0.99$)の推論に関する電力法則に従い、スケーリング指数$γ$は論理表現性とともに単調に増加し、1.04$から2.60$となることを示す。
下流数学と一般的な推論のベンチマークでは、より表現力のあるトレーニング設定は、より大きなパフォーマンス向上(最大$+10.66$ポイント)と、より表現力の少ない設定よりも計算効率の高い転送の両方をもたらす。
さらに、複数のRL法にまたがるパワー-ロー関係が維持され、カリキュラムベースのトレーニングによりスケーリング効率が大幅に向上することを示す。
より広範に、長軸推論におけるLCMの欠点は、基礎となるアーキテクチャに基本的なものではなく、トレーニング手法やデータの改善によって対処できることを示した。
関連論文リスト
- Training LLMs with LogicReward for Faithful and Rigorous Reasoning [75.30425553246177]
定理証明器を用いてステップレベルの論理的正しさを強制することでモデルトレーニングを指導する報酬システムであるLogicRewardを提案する。
LogicRewardで構築されたデータに基づいてトレーニングされた8Bモデルは、GPT-4oとo4-miniを11.6%、自然言語推論と論理的推論タスクで2%超えた。
論文 参考訳(メタデータ) (2025-12-20T03:43:02Z) - Scaling Laws and In-Context Learning: A Unified Theoretical Framework [0.0]
インコンテキスト学習(ICL)により、大規模な言語モデルでは、パラメータ更新なしでデモから新しいタスクに適応することができる。
変換器におけるスケーリング法則とICLの出現を結合する統一理論的枠組みを提案する。
ICLの性能はモデル深度$L$, 幅$d$, コンテキスト長$k$, トレーニングデータ$D$, タスク構造によって決定される指数に従うことを示す。
論文 参考訳(メタデータ) (2025-11-09T05:19:14Z) - Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文 参考訳(メタデータ) (2025-06-05T14:16:44Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Differentiable Logic Machines [38.21461039738474]
微分可能論理マシン(DLM)と呼ばれる新しいニューラル論理アーキテクチャを提案する。
DLMは帰納論理プログラミング(ILP)と強化学習(RL)の両方の問題を解くことができる。
解釈可能な解を必要としないRL問題では、DLMは他の解釈不可能なニューラル論理的RLアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-02-23T07:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。