論文の概要: Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
- arxiv url: http://arxiv.org/abs/2511.12609v1
- Date: Sun, 16 Nov 2025 14:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.40826
- Title: Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
- Title(参考訳): Uni-MoE-2.0-Omni:高度なMoE、トレーニング、データを備えた言語中心のOmnimodal Large Model
- Authors: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang,
- Abstract要約: 完全にオープンソースなOmnimodal Large Model (LM) として、言語中心のマルチモーダル理解、推論、生成において、LycheeのUni-MoEシリーズを大幅に進歩させる。
Qwen2.5-7Bアーキテクチャに基づいて、3つのコアコントリビューションを通じて、Uni-MoE-2.0-Omniをスクラッチから構築します。
雑用的な理解や、画像、テキスト、音声を生成することができる。
- 参考スコア(独自算出の注目度): 55.65426108082807
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.
- Abstract(参考訳): 我々は、LycheeファミリーからUni-MoE 2.0を提示する。
完全にオープンソースなOmnimodal Large Model (OLM) として、言語中心のマルチモーダル理解、推論、生成において、LycheeのUni-MoEシリーズを大幅に進歩させる。
Qwen2.5-7B高密度アーキテクチャをベースとして,ダイナミックキャパシティ・ミックス・オブ・エクササイズ(MoE)設計,反復強化戦略で強化されたプログレッシブトレーニング戦略,慎重にキュレートされたマルチモーダルデータマッチング技術という,3つのコアコントリビューションを通じて,Uni-MoE-2.0-Omniをスクラッチから構築する。
雑用的な理解や、画像、テキスト、音声を生成することができる。
アーキテクチャ面では、新しいMoEフレームワークは、共有、ルーティング、ヌルの専門家を用いた10のクロスモーダル入力の計算効率と能力のバランスをとる一方、Omni-Modality 3D RoPEは自己保持層における時空間的相互モーダルアライメントを保証する。
クロスモーダルプレトレーニングのトレーニングでは,モダリティ固有の専門家を活性化するプログレッシブ・教師付き微調整戦略を用い,バランスデータ合成と反復GSPO-DPO法によりRLトレーニングの安定化と推論の改善を図る。
オープンソースマルチモーダルデータの約75Bトークンに基づいてトレーニングされたベースモデルは、特別な音声および画像生成トークンを備えており、言語的手がかりに基づいて出力を条件付けすることで、これらの生成タスクを学習することができる。
85のベンチマークを総合的に比較したところ、我々のモデルは、76のベンチマークのうち50以上のベンチマークでQwen2.5-Omni(1.2Tトークンで訓練された)を上回り、主要なOLMに対してSOTAまたは高い競争性能を達成することが示された。
主な強みは、ビデオ理解(8:7%)、全能理解(4:7%)、音声視覚的推論(4%)である。
また、ロングフォームな音声処理(WERを4.2%削減)を推進し、5つのメトリクスにわたって低レベルな画像処理と制御可能な生成を導く。
関連論文リスト
- Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [191.7830199016589]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。