論文の概要: Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation
- arxiv url: http://arxiv.org/abs/2510.24821v1
- Date: Tue, 28 Oct 2025 15:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.600998
- Title: Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation
- Title(参考訳): Ming-Flash-Omni:マルチモーダル認識と生成のための疎結合アーキテクチャ
- Authors: Inclusion AI, :, Bowen Ma, Cheng Zou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianing Li, Jianxin Sun, Jiajia Liu, Jianjiang Zhu, Jianping Jiang, Jun Peng, Kaixiang Ji, Kaimeng Ren, Libin Wang, Lixiang Ru, Longhua Tan, Lan Wang, Mochen Bai, Ning Gao, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Ruobing Zheng, Sirui Gao, Tianqi Li, Tinghao Liu, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaolong Wang, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yuting Xiao, Yunxiao Sun, Yipeng Chen, Yifan Mao, Yifei Wu, Yongjie Lyu, Ziping Ma, Zhiqiang Fang, Zhihao Qiu, Ziyuan Huang, Zizheng Yang, Zhengyu He,
- Abstract要約: Ming-Flash-Omniは、Ling-Flash-2.0のスペーサーMixture-of-Experts (MoE)の派生版上に構築されており、総パラメータは1000億である。
前バージョンと比較すると、アップグレード版はマルチモーダルな理解と生成にまたがって大幅に改善されている。
Ming-Flash-Omniは、テキスト・画像生成と生成セグメンテーションで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 84.88766857667346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Ming-Flash-Omni, an upgraded version of Ming-Omni, built upon a sparser Mixture-of-Experts (MoE) variant of Ling-Flash-2.0 with 100 billion total parameters, of which only 6.1 billion are active per token. This architecture enables highly efficient scaling (dramatically improving computational efficiency while significantly expanding model capacity) and empowers stronger unified multimodal intelligence across vision, speech, and language, representing a key step toward Artificial General Intelligence (AGI). Compared to its predecessor, the upgraded version exhibits substantial improvements across multimodal understanding and generation. We significantly advance speech recognition capabilities, achieving state-of-the-art performance in contextual ASR and highly competitive results in dialect-aware ASR. In image generation, Ming-Flash-Omni introduces high-fidelity text rendering and demonstrates marked gains in scene consistency and identity preservation during image editing. Furthermore, Ming-Flash-Omni introduces generative segmentation, a capability that not only achieves strong standalone segmentation performance but also enhances spatial control in image generation and improves editing consistency. Notably, Ming-Flash-Omni achieves state-of-the-art results in text-to-image generation and generative segmentation, and sets new records on all 12 contextual ASR benchmarks, all within a single unified architecture.
- Abstract(参考訳): 我々は、Ming-Flash-Omniのアップグレード版であるMing-Flash-Omniを提案し、100億の合計パラメータを持つLing-Flash-2.0のスペーサーMixture-of-Experts (MoE)をベースとしている。
このアーキテクチャは、高度に効率的なスケーリング(モデルキャパシティを著しく拡張しながら、計算効率を劇的に向上させる)を可能にし、視覚、音声、言語をまたいだ強力な統合マルチモーダルインテリジェンス(英語版)を強化し、人工知能(英語版) (AGI) への重要なステップを示す。
前バージョンと比較すると、アップグレード版はマルチモーダルな理解と生成にまたがって大幅に改善されている。
我々は、音声認識能力を大幅に向上させ、文脈的ASRにおける最先端の性能を達成するとともに、方言を意識したASRにおける高い競争結果を得た。
画像生成において、Ming-Flash-Omniは高忠実なテキストレンダリングを導入し、画像編集中にシーンの一貫性とアイデンティティ保存が顕著に向上したことを示す。
さらに、Ming-Flash-Omniは、強力なスタンドアロンセグメンテーション性能を達成するだけでなく、画像生成における空間制御を強化し、編集一貫性を向上させるジェネレーションセグメンテーションを導入した。
特に、Ming-Flash-Omniは、テキスト・ツー・イメージ生成と生成セグメンテーションの最先端の結果を達成し、単一の統一アーキテクチャ内で、12のASRベンチマークに新しいレコードを設定する。
関連論文リスト
- Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - Ming-Omni: A Unified Multimodal Model for Perception and Generation [69.82909107437777]
本稿では,画像,テキスト,音声,ビデオの処理が可能な統合マルチモーダルモデルを提案する。
Ming-Omniは専用エンコーダを使用して異なるモダリティからトークンを抽出し、Lingによって処理する。
Ming-Omniは、オーディオと画像生成をサポートすることで、従来のマルチモーダルモデルを超えて拡張する。
論文 参考訳(メタデータ) (2025-06-11T02:50:49Z) - Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition [18.582459363950907]
手書き数学的表現認識(HMER)は、光学文字認識(OCR)における永続的な課題である
アーキテクチャを変更することなく,HMERタスクの視覚言語モデルを完全に微調整するUni-MuMERを提案する。
構造的空間推論のためのTree-CoT(Tree-CoT)、視覚的に類似した文字間の混乱を減らすためのエラー駆動学習(EDL)、長い表現における認識整合性を改善するためのシンボルカウント(SC)の3つのデータ駆動タスクを統合した。
論文 参考訳(メタデータ) (2025-05-29T15:41:00Z) - Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction [38.36977286879692]
Ming-Lite-Uniは、統一されたビジュアルジェネレータとマルチモーダル自動回帰モデルを備えたオープンソースのフレームワークである。
Ming-Lite-Uniはアルファ段階にあり、間もなく改良される。
論文 参考訳(メタデータ) (2025-05-05T08:56:12Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。