論文の概要: Divide-and-Conquer CoT: RL for Reducing Latency via Parallel Reasoning
- arxiv url: http://arxiv.org/abs/2601.23027v1
- Date: Fri, 30 Jan 2026 14:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.501584
- Title: Divide-and-Conquer CoT: RL for Reducing Latency via Parallel Reasoning
- Title(参考訳): 並列推論による遅延低減のための分極型CoT: RL
- Authors: Arvind Mahankali, Kaiyue Wen, Tengyu Ma,
- Abstract要約: 我々は、遅延を低減するためにDivide-and-Conquer CoT (DC-CoT) を訓練することを提案する。
DC-CoTは、推論プロセスで並列に実行できる異なるサブタスクを識別するディレクタとして機能し、サブタスクを実行するためにワーカーを生成できる。
我々のゴールは、応答に必要な遅延の理論的尺度である、最も長い経路長で高い精度を達成することである。
- 参考スコア(独自算出の注目度): 18.5812457692667
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long chain-of-thought reasoning (Long CoT) is now fundamental to state-of-the-art LLMs, especially in mathematical reasoning. However, LLM generation is highly sequential, and long CoTs lead to a high latency. We propose to train Divide-and-Conquer CoT (DC-CoT) to reduce the latency. With DC-CoT, the model can act as a director that identifies distinct subtasks that can be performed in parallel in its reasoning process, and then spawns workers to execute the subtasks. Our goal is to achieve high accuracy, with a low longest path length, which is a theoretical measure of the latency needed for the response. We start with a long CoT base model (DeepScaleR-1.5B-Preview), and first use SFT with a small curated demonstration set to initialize its ability to spawn workers in a certain format. Because SFT degrades the accuracy significantly, we design a multi-stage RL algorithm, with various data filtering strategies, to recover the accuracy while decreasing the longest path length. Across several benchmarks including AIME 2024 and HMMT 2025, DC-CoT achieves similar accuracy as DeepScaleR-1.5B-Preview while decreasing longest path length by 35-40%. Our code, SFT dataset and models are publicly available at https://github.com/amahankali10/DC_CoT_RL_for_Low_Latency_CoT_with_Parallel_Reasoning.
- Abstract(参考訳): ロングチェーン・オブ・シークレット推論(Long CoT)は現在、特に数学的推論において最先端のLLMの基礎となっている。
しかし、LLM生成は非常にシーケンシャルであり、長いCoTは高いレイテンシをもたらす。
我々は、遅延を低減するためにDivide-and-Conquer CoT (DC-CoT) を訓練することを提案する。
DC-CoTでは、モデルは、推論プロセスで並列に実行できる異なるサブタスクを識別するディレクタとして機能し、サブタスクを実行するためにワーカーを生成できる。
我々のゴールは、応答に必要な遅延の理論的尺度である、最も長い経路長で高い精度を達成することである。
まず、長いCoTベースモデル(DeepScaleR-1.5B-Preview)から始め、SFTを小さなキュレートされたデモセットで使用して、あるフォーマットで労働者を産み出す能力を初期化します。
SFTは精度を著しく低下させるため、長い経路長を減少させながら精度を回復させるため、様々なデータフィルタリング戦略を持つ多段階RLアルゴリズムを設計する。
AIME 2024やHMMT 2025などいくつかのベンチマークで、DC-CoTはDeepScaleR-1.5B-Previewと同様の精度で、最長パス長を35-40%削減した。
私たちのコード、SFTデータセット、モデルはhttps://github.com/amahankali10/DC_CoT_RL_for_Low_Latency_CoT_with_Parallel_Reasoningで公開されています。
関連論文リスト
- AsyncSpade: Efficient Test-Time Scaling with Asynchronous Sparse Decoding [35.10915929939651]
テストタイムスケーリング(TTS)は長いチェーン・オブ・シント(CoT)を介してLCM推論を促進する
KV-cache成長は、LLMデコーディングのメモリバウンドボトルネックを増幅する。
2つのコアコンポーネント上に構築された効率的なTSのための非同期フレームワークであるAsyncSpadeを提案する。
論文 参考訳(メタデータ) (2025-10-08T19:36:11Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - ETT: Expanding the Long Context Understanding Capability of LLMs at Test-Time [4.737679362712655]
ourmodelacronym(Extend at Test-Time)は、短いコンテキストのコンテクスト長を変換子ベースの言語モデルに拡張する手法である。
GPT-LargeとPhi-2のコンテキスト長を32倍に拡張し,LongBench上のETTを評価する。
論文 参考訳(メタデータ) (2025-07-08T18:06:45Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。