論文の概要: Ming-Omni: A Unified Multimodal Model for Perception and Generation
- arxiv url: http://arxiv.org/abs/2506.09344v1
- Date: Wed, 11 Jun 2025 02:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.249218
- Title: Ming-Omni: A Unified Multimodal Model for Perception and Generation
- Title(参考訳): Ming-Omni: 知覚と生成のための統一型マルチモーダルモデル
- Authors: Inclusion AI, Biao Gong, Cheng Zou, Chuanyang Zheng, Chunluan Zhou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianxin Sun, Jiajia Liu, Jianjiang Zhu, Jun Peng, Kaixiang Ji, Kaiyou Song, Kaimeng Ren, Libin Wang, Lixiang Ru, Lele Xie, Longhua Tan, Lyuxin Xue, Lan Wang, Mochen Bai, Ning Gao, Pei Chen, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Sirui Gao, Tinghao Liu, Taisong Li, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaoxue Chen, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yunxiao Sun, Yipeng Chen, Yifei Wu, Yongjie Lyu, Ziping Ma, Zipeng Feng, Zhijiang Fang, Zhihao Qiu, Ziyuan Huang, Zhengyu He,
- Abstract要約: 本稿では,画像,テキスト,音声,ビデオの処理が可能な統合マルチモーダルモデルを提案する。
Ming-Omniは専用エンコーダを使用して異なるモダリティからトークンを抽出し、Lingによって処理する。
Ming-Omniは、オーディオと画像生成をサポートすることで、従来のマルチモーダルモデルを超えて拡張する。
- 参考スコア(独自算出の注目度): 69.82909107437777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Ming-Omni, a unified multimodal model capable of processing images, text, audio, and video, while demonstrating strong proficiency in both speech and image generation. Ming-Omni employs dedicated encoders to extract tokens from different modalities, which are then processed by Ling, an MoE architecture equipped with newly proposed modality-specific routers. This design enables a single model to efficiently process and fuse multimodal inputs within a unified framework, thereby facilitating diverse tasks without requiring separate models, task-specific fine-tuning, or structural redesign. Importantly, Ming-Omni extends beyond conventional multimodal models by supporting audio and image generation. This is achieved through the integration of an advanced audio decoder for natural-sounding speech and Ming-Lite-Uni for high-quality image generation, which also allow the model to engage in context-aware chatting, perform text-to-speech conversion, and conduct versatile image editing. Our experimental results showcase Ming-Omni offers a powerful solution for unified perception and generation across all modalities. Notably, our proposed Ming-Omni is the first open-source model we are aware of to match GPT-4o in modality support, and we release all code and model weights to encourage further research and development in the community.
- Abstract(参考訳): 本稿では,画像,テキスト,音声,ビデオの処理が可能な統合マルチモーダルモデルであるMing-Omniを提案する。
Ming-Omniは専用のエンコーダを使用して異なるモダリティからトークンを抽出し、新たに提案されたモダリティ固有のルータを備えたMoEアーキテクチャであるLingで処理する。
この設計により、単一モデルは統一されたフレームワーク内で効率的にマルチモーダル入力を処理および融合することができ、それによって、個別のモデル、タスク固有の微調整、構造的な再設計を必要とせずに、多様なタスクを容易にすることができる。
重要なのは、Ming-Omniが従来のマルチモーダルモデルを超えて、オーディオと画像生成をサポートすることだ。
これは、自然言語音声のための高度なオーディオデコーダと、高品質な画像生成のためのMing-Lite-Uniを統合することで実現される。
実験結果から,Ming-Omniはすべてのモダリティに対して統一された知覚と生成のための強力なソリューションを提供することが示された。
特に、提案したMing-Omniは、GPT-4oとモダリティサポートで一致した最初のオープンソースモデルです。
関連論文リスト
- Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction [38.36977286879692]
Ming-Lite-Uniは、統一されたビジュアルジェネレータとマルチモーダル自動回帰モデルを備えたオープンソースのフレームワークである。
Ming-Lite-Uniはアルファ段階にあり、間もなく改良される。
論文 参考訳(メタデータ) (2025-05-05T08:56:12Z) - Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。