論文の概要: Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation
- arxiv url: http://arxiv.org/abs/2506.09991v1
- Date: Wed, 11 Jun 2025 17:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.192645
- Title: Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation
- Title(参考訳): マルチバース:あなたの言語モデルは、生成の並列化とマージの方法を秘かに決定する
- Authors: Xinyu Yang, Yuwei An, Hongyi Liu, Tianqi Chen, Beidi Chen,
- Abstract要約: 並列生成が可能な新しい生成モデルであるMultiverseを導入する。
次に,データ,アルゴリズム,システムの共設計キュレーションを用いた実世界のマルチバース推論モデルを構築した。
また,Multiverse-32Bは,同じコンテキスト長を用いて,平均1.87%のAR-LLMよりも優れたスケーリング性能を示した。
- 参考スコア(独自算出の注目度): 20.117825519637357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit parallelism in sequential generation. Inspired by this, we introduce Multiverse, a new generative model that enables natively parallel generation. Multiverse internalizes a MapReduce paradigm, generating automatically through three stages: (i) a Map stage for adaptive task decomposition, (ii) a Process stage for parallel subtask execution, and (iii) a Reduce stage for lossless result synthesis. Next, we build a real-world Multiverse reasoning model with co-design of data, algorithm, and system, enabling rapid and seamless transfer from frontier AR-LLMs. Starting from sequential reasoning chains, we create Multiverse 1K by converting them into structured training data using an automated LLM-assisted pipeline, avoiding costly human annotations. Algorithmically, we design Multiverse Attention to separate parallel reasoning steps while keeping compatibility with causal attention for efficient training. Systematically, we implement Multiverse Engine to enable parallel inference. It features a dedicated scheduler that dynamically switches between sequential and parallel generation, triggered directly by the model. After a 3-hour fine-tuning with 1K examples, our Multiverse-32B stands as the only open-sourced non-AR model achieving performance on par with leading AR-LLMs of the same scale, evidenced by AIME24 & 25 scores of 54% and 46%, respectively. Moreover, our budget control experiments show that Multiverse-32B exhibits superior scaling, outperforming AR-LLMs by 1.87% on average using the same context length. Such scaling further leads to practical efficiency gain, achieving up to 2x speedup across varying batch sizes. We have open-sourced the entire Multiverse ecosystem, including data, model weights, engine, supporting tools, as well as complete data curation prompts and detailed training and evaluation recipes.
- Abstract(参考訳): 自己回帰型大規模言語モデル(AR-LLM)は、逐次生成において暗黙の並列性を示すことが多い。
そこで本研究では,ネイティブ並列生成が可能な新しい生成モデルであるMultiverseを紹介する。
MultiverseはMapReduceパラダイムを内部化し、3つのステージから自動的に生成します。
i) 適応的なタスク分解のためのマップステージ
(ii)並列サブタスク実行のためのプロセスステージ、及び
三 無損失結果合成のための還元段階
次に,データ,アルゴリズム,システムの共同設計により,フロンティアAR-LLMからの高速かつシームレスな転送を可能にする実世界のマルチバース推論モデルを構築した。
シーケンシャルな推論チェーンから始めて,LLM支援パイプラインを用いた構造化トレーニングデータに変換して,コストのかかる人的アノテーションを回避することで,Multiverse 1Kを作成する。
アルゴリズムにより、並列推論ステップを分離し、因果的注意と互換性を保ち、効率的なトレーニングを行うために、多元的注意を設計する。
並列推論を実現するために,システム的にマルチバースエンジンを実装した。
モデルによって直接トリガーされるシーケンシャルと並列生成を動的に切り替える専用のスケジューラを備えている。
AIME24と25のスコア(54%と46%)が示すように、我々のMultiverse-32Bは、1Kの例で3時間の微調整を経て、同じ規模のAR-LLMと同等のパフォーマンスを達成した唯一のオープンソース非ARモデルです。
さらに、予算管理実験により、Multiverse-32Bはより優れたスケーリングを示し、同じコンテキスト長を用いて平均1.87%のAR-LLMを上回ります。
このようなスケーリングはさらに、様々なバッチサイズで最大2倍のスピードアップを達成することで、実用的な効率向上につながります。
データ、モデルウェイト、エンジン、サポートツール、完全なデータキュレーションプロンプト、詳細なトレーニングと評価のレシピなど、Multiverseのエコシステム全体をオープンソースにしています。
関連論文リスト
- Balancing Computation Load and Representation Expressivity in Parallel Hybrid Neural Networks [5.877451898618022]
FlowHNは、ロードバランシングのさまざまな戦略に対応する、新しい並列ハイブリッドネットワークアーキテクチャである。
FlowHNの2つの革新的な差別化要因は、注意とSSMブランチの間で分割されたFLOP認識動的トークンである。
論文 参考訳(メタデータ) (2025-05-26T03:52:22Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。