論文の概要: VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo
- arxiv url: http://arxiv.org/abs/2508.02317v3
- Date: Thu, 07 Aug 2025 10:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 14:01:14.018468
- Title: VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo
- Title(参考訳): VeOmni: モデル中心の分散レシピ動物園によるモダリティモデルトレーニングのスケールアップ
- Authors: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu,
- Abstract要約: Ve Omni - 大規模言語モデル(LLM)のトレーニングフレームワーク。
Ve Omni氏は、計算からコミュニケーションを分離するモデル中心の分散レシピを紹介した。
Ve Omniは2,800トークン/秒/GPUスループットでトレーニングでき、128GPU上の3D並列処理によって160Kのコンテキスト長にスケールすることができる。
- 参考スコア(独自算出の注目度): 25.89459841661218
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large language models (LLMs) have driven impressive progress in omni-modal understanding and generation. However, training omni-modal LLMs remains a significant challenge due to the heterogeneous model architectures required to process diverse modalities, necessitating sophisticated system design for efficient large-scale training. Existing frameworks typically entangle model definition with parallel logic, incurring limited scalability and substantial engineering overhead for end-to-end omni-modal training. We present VeOmni, a modular and efficient training framework to accelerate the development of omni-modal LLMs. VeOmni introduces model-centric distributed recipes that decouples communication from computation, enabling efficient 3D parallelism on omni-modal LLMs. VeOmni also features a flexible configuration interface supporting seamless integration of new modalities with minimal code change. Using VeOmni, a omni-modal mixture-of-experts (MoE) model with 30B parameters can be trained with over 2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D parallelism on 128 GPUs, showcasing its superior efficiency and scalability for training large omni-modal LLMs.
- Abstract(参考訳): 大規模言語モデル (LLMs) の最近の進歩は、オムニモーダル理解と生成において顕著な進歩をもたらしている。
しかし、多種多様なモダリティを処理するのに必要な異種モデルアーキテクチャのため、効率的な大規模トレーニングのために高度なシステム設計を必要とするため、オムニモダル LLM のトレーニングは依然として重要な課題である。
既存のフレームワークは通常、モデル定義を並列ロジックと結び付けて、限られたスケーラビリティとエンドツーエンドのOmni-Modalトレーニングのための相当なエンジニアリングオーバーヘッドをもたらす。
We present VeOmni, a modular and efficient training framework to improve the development of omni-modal LLMs。
VeOmniは、計算から通信を分離するモデル中心の分散レシピを導入し、Omni-modal LLM上で効率的な3D並列化を実現した。
VeOmniはまた、最小限のコード変更で新しいモダリティのシームレスな統合をサポートするフレキシブルな設定インターフェイスも備えている。
30Bパラメータを持つOmni-modal Mix-of-experts(MoE)モデルであるVeOmniを使用することで、2,800トークン/sec/GPUスループットをトレーニングし、128GPU上の3D並列処理を通じて160Kコンテキスト長まで拡張することが可能で、大規模なOmni-modal LLMをトレーニングするための優れた効率性とスケーラビリティを示している。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、あらゆるエンコーダを最小限の微調整なしで競争力のあるマルチモーダルモデルに変換する汎用的な融合フレームワークである。
本研究では, MM-Legoをモデルマージ法として用いることで, 微調整を伴わずに, エンドツーエンド融合モデルとの競合性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-05-30T11:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。