論文の概要: InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.06960v1
- Date: Fri, 06 Feb 2026 18:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.543439
- Title: InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning
- Title(参考訳): InftyThink+:強化学習による有効で効率的な無限水平推論
- Authors: Yuchen Yan, Liang Jiang, Jin Jiang, Shuaicheng Li, Zujie Wen, Zhiqiang Zhang, Jun Zhou, Jian Shao, Yueting Zhuang, Yongliang Shen,
- Abstract要約: InftyThink+は大規模な推論モデルのためのエンドツーエンドの強化学習フレームワークである。
InftyThink+は精度を21%向上し、従来の長鎖強化学習よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 50.185363583880225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.
- Abstract(参考訳): 大きな推論モデルは推論時の連鎖をスケールすることで高い性能を達成するが、このパラダイムは2次コスト、文脈長制限、中間効果の喪失による劣化推論に悩まされる。
反復推論は、中間的思考を定期的に要約することによってこれらの問題を緩和するが、既存の手法は教師付き学習や固定的ヒューリスティックに依存し、いつ要約するか、保存するか、どのように推論を再開するかを最適化しない。
InftyThink+は、反復推論の軌道全体を最適化し、モデル制御された反復境界と明示的な要約の上に構築する、エンドツーエンドの強化学習フレームワークである。
InftyThink+は、教師付きコールドスタートとトラジェクトリレベルの強化学習を備えた2段階のトレーニングスキームを採用し、モデルが戦略的要約と継続決定を学習できるようにする。
DeepSeek-R1-Distill-Qwen-1.5Bの実験では、InftyThink+はAIME24で精度を21%向上し、従来の長鎖強化学習を明確なマージンで上回る一方で、アウト・オブ・ディストリビューション・ベンチマークよりも優れていた。
さらに、InftyThink+は推論遅延を著しく低減し、強化学習トレーニングを加速し、より強力な性能とともに推論効率を向上させる。
関連論文リスト
- Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning [62.680551162054975]
我々はLLMが動的要約によって推論ステップの粒度を自己制御することを学ぶエンドツーエンドのフレームワークを紹介した。
高い効率のFoldモードと徹底的なUnfoldモードの精度ギャップを徐々に狭めていくという重要な知見を見出し,この能力をさらにインセンティブ化するために強化学習を適用した。
私たちのAccordion-Thinkerは、学習した自己圧縮により、LLMは依存性トークンのオーバーヘッドを最小限に抑えながら複雑な推論タスクに取り組むことができることを示した。
論文 参考訳(メタデータ) (2026-02-03T08:34:20Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Anti-Length Shift: Dynamic Outlier Truncation for Training Efficient Reasoning Models [29.56923793047279]
本稿では,冗長トークンを選択的に抑制する訓練時間介入であるDynamic Outlier Truncation(DOT)を紹介する。
DOTは、完全に正しいロールアウトグループ内での応答長の極端のみを目標とし、長い水平推論能力を保っている。
提案手法は,初期ポリシーに比べて精度を高くしながら,推論トークンの使用率を78%削減する。
論文 参考訳(メタデータ) (2026-01-07T14:31:07Z) - Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling [41.834250664485666]
大規模な推論モデルは、パフォーマンス上のメリットのない、過度に長い推論パスを生成します。
長さをペナライズする既存のソリューションは、しばしば失敗し、パフォーマンスが低下する。
我々は、現在長さの報酬に未適応な2つの欠陥の理論的発見に基づいて、新しいフレームワークDECSを紹介した。
論文 参考訳(メタデータ) (2025-09-30T06:04:43Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - Efficient Post-Training Refinement of Latent Reasoning in Large Language Models [22.878147805601706]
Chain-of-Thoughtのプロンプトは十分なトークンオーバーヘッドと固定された推論軌道に悩まされ、ステップワイズの改良が妨げられる。
潜在推論の最近の進歩は、モデル潜在空間において内部推論プロセスを直接精製することによってこれらの制限に対処している。
本稿では,2つの新しい戦略を用いて遅延推論軌道を洗練する軽量なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T08:17:16Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。