論文の概要: Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.07461v1
- Date: Mon, 08 Dec 2025 11:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.864103
- Title: Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
- Title(参考訳): ネイティブ並列共振器:自己拡張強化学習による並列性推論
- Authors: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng,
- Abstract要約: 我々はNative Parallel Reasoner(NPR)を紹介した。これは、LLM(Large Language Models)が真の並列推論能力を自己発展させることを可能にする、教師なしのフレームワークである。
NPRは、モデルをシーケンシャルエミュレーションから3つの重要な革新を通じてネイティブ並列認識に変換する。
- 参考スコア(独自算出の注目度): 68.9332598692234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.
- Abstract(参考訳): 我々はNative Parallel Reasoner(NPR)を紹介した。これは、LLM(Large Language Models)が真の並列推論能力を自己進化させることを可能にする教師なしのフレームワークである。
NPRは3つの重要な革新を通じて、モデルをシーケンシャルエミュレーションからネイティブ並列認識に変換する。
1) 「コールドスタート」形式発見から厳格なトポロジカル制約へ、外部の監督なしに移行する自己蒸留プログレッシブトレーニングパラダイム
2)Parallel-Aware Policy Optimization (PAPO)アルゴリズムは、実行グラフ内で直接分岐ポリシーを最適化し、モデルが試行錯誤によって適応的な分解を学習できるようにする。
3) SGLangのメモリ管理とフロー制御をリファクタリングし、安定した大規模並列RLトレーニングを可能にする堅牢なNPRエンジン。
8つの推論ベンチマークで、Qwen3-4BでトレーニングされたNPRは、最大24.5%のパフォーマンス向上と推論のスピードアップを4.6倍に達成している。
しばしば自己回帰的復号に回帰する以前のベースラインとは異なり、NPRは100%真の並列実行を示し、自己進化的で効率的でスケーラブルなエージェント推論のための新しい標準を確立している。
関連論文リスト
- Parallel-R1: Towards Parallel Thinking via Reinforcement Learning [65.68667585027232]
並列思考は、大規模言語モデルの推論能力を高めるための新しいアプローチである。
並列思考行動を可能にする最初の強化学習フレームワークである textbfParallel-R1 を提案する。
本フレームワークでは,並列思考のトレーニングにおいて,コールドスタート問題に明示的に対処する漸進的なカリキュラムを採用している。
論文 参考訳(メタデータ) (2025-09-09T17:59:35Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。