論文の概要: Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.07980v1
- Date: Tue, 09 Sep 2025 17:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.437143
- Title: Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
- Title(参考訳): 並列R1:強化学習による並列思考を目指して
- Authors: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu,
- Abstract要約: 並列思考は、大規模言語モデルの推論能力を高めるための新しいアプローチである。
並列思考行動を可能にする最初の強化学習フレームワークである textbfParallel-R1 を提案する。
本フレームワークでは,並列思考のトレーニングにおいて,コールドスタート問題に明示的に対処する漸進的なカリキュラムを採用している。
- 参考スコア(独自算出の注目度): 71.09853461774676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.
- Abstract(参考訳): 並列思考は、複数の推論経路を同時に探索することによって、大規模言語モデル(LLM)の推論能力を高める新しいアプローチとして登場した。
しかし、既存の手法では、主に教師による微調整(SFT)に頼っており、探索や一般化よりも教師による模倣を奨励しているため、こうした能力の訓練を通じての活性化は依然として困難である。
これらと異なり、複雑な実世界の推論タスクに対して並列思考行動を可能にする最初の強化学習(RL)フレームワークである \textbf{Parallel-R1} を提案する。
我々のフレームワークは、RLで並列思考を訓練する際のコールドスタート問題に明示的に対処するプログレッシブカリキュラムを採用している。
まず、簡単なタスクから、並列思考能力を具現化するためにSFTを使い、次にRLに移行して、このスキルを難しい問題に対して探索し、一般化する。
MATH、AMC23、AIMEなどの様々な数学ベンチマークの実験では、パラレルR1が並列思考をうまく導入し、RLの挑戦的なタスクを直接訓練したシーケンシャル思考モデルよりも8.4%精度が向上した。
初期の段階では、並列思考を探索戦略として使用し、後期では、マルチパースペクティブな検証に同じ能力を使用する。
AIME25のベースラインよりも42.9%向上し,この一時的な探索段階はRLの後に高い性能の天井を解き放つ。
私たちのモデル、データ、コードはhttps://github.com/zhengkid/Parallel-R1.comでオープンソース化されます。
関連論文リスト
- Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers [16.135928990655422]
本稿では,2つのスケーリング問題に対処するシステムである textttBFS-Prover-V2 を紹介する。
1つ目は、トレーニング時にLLMのステッププロデューサの性能を継続的に改善する、新しいマルチターンオフポリチフレームワークである。
第二のイノベーションは、推論時に推論能力を拡大するプランナーによるマルチエージェント検索アーキテクチャである。
論文 参考訳(メタデータ) (2025-09-08T09:54:18Z) - ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute [32.915370020808105]
ParaThinkerは、LLMをトレーニングして複数の多様な推論パスを並列に生成するエンドツーエンドフレームワークである。
トンネルビジョンの問題を効果的に回避し、モデルの潜在的推論可能性を解き放つ。
挑戦的な推論ベンチマークでは、ParaThinkerはシーケンシャルLLMよりもかなり精度が向上している。
論文 参考訳(メタデータ) (2025-08-30T03:09:07Z) - History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL [14.506189610798929]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な方法論として登場した。
RhymeRLは、RLトレーニングを2つの重要なイノベーションで加速するLLM RLシステムである。
まず、ロールアウト生成を強化するために、投機的復号推論エンジンであるHistoSpecを紹介する。
第二に、ロールアウトバブルに取り組むために、2層スケジューリング戦略であるHistoPipeを紹介します。
論文 参考訳(メタデータ) (2025-08-26T01:42:46Z) - Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning [28.92744927199283]
ReVisual-R1は、MathVerse、MathVision、WeMath、LogicVista、DynaMath、AIME2024、AIME2025といった挑戦的なベンチマークにおいて、オープンソースの7B MLLMの間で新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:51:08Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning [31.21491548356213]
バックトラックは、長いチェーン・オブ・シント(CoT)生成による逐次線形化探索を可能にすることによって、テスト時間計算を自然にスケールする。
シーケンシャル検索の普及にもかかわらず、並列サンプリングよりも優位性はよく分かっていない。
バックトラック機能を持つモデルはRL微調整の恩恵を受けるが,バックトラック機能を持たないモデルは限定的かつ混合的なゲインを示す。
論文 参考訳(メタデータ) (2025-04-09T17:12:49Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。