論文の概要: EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture
- arxiv url: http://arxiv.org/abs/2512.04810v2
- Date: Fri, 05 Dec 2025 16:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.738154
- Title: EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture
- Title(参考訳): EMMA: 統一アーキテクチャによる効率的なマルチモーダル理解、生成、編集
- Authors: Xin He, Longhui Wei, Jianbo Ouyang, Lingxi Xie, Qi Tian,
- Abstract要約: マルチモーダル理解・生成・編集のための効率よく統一されたアーキテクチャEMMAを提案する。
EMMAは主に1)32倍圧縮率の効率的なオートエンコーダから成り、生成に必要なトークンの数を大幅に削減する。
2) 視覚的理解と生成トークン間のトークンワイドな結合ではなく,チャネルワイドな結合により,統一アーキテクチャにおける視覚的トークンの低減が図られる。
- 参考スコア(独自算出の注目度): 88.44065321934833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose EMMA, an efficient and unified architecture for multimodal understanding, generation and editing. Specifically, EMMA primarily consists of 1) An efficient autoencoder with a 32x compression ratio, which significantly reduces the number of tokens required for generation. This also ensures the training balance between understanding and generation tasks by applying the same compression ratio to images. 2) Channel-wise concatenation instead of token-wise concatenation among visual understanding and generation tokens, which further reduces the visual tokens in unified architectures. 3) A shared-and-decoupled network that enables mutual improvements across tasks while meeting the task-specific modeling requirements. 4) A mixture-of-experts mechanism adopted for visual understanding encoder, which substantially improves perceptual capabilities with a few parameters increase. Extensive experiments have shown that EMMA-4B can significantly outperform state-of-the-art unified multimodal approaches (e.g., BAGEL-7B) in both efficiency and performance, while also achieving competitive results compared to recent multimodal understanding and generation experts (e.g., Qwen3-VL and Qwen-Image). We believe that EMMA lays a solid foundation for the future development of unified multimodal architectures.
- Abstract(参考訳): マルチモーダル理解・生成・編集のための効率よく統一されたアーキテクチャEMMAを提案する。
具体的には、EMMAは主に
1)32倍圧縮率の効率的なオートエンコーダは,生成に必要なトークン数を著しく削減する。
これにより、画像に同じ圧縮比を適用することで、理解タスクと生成タスクのトレーニングバランスも確保できる。
2) 視覚的理解と生成トークン間のトークンワイドな結合ではなく,チャネルワイドな結合により,統一アーキテクチャにおける視覚的トークンの低減が図られる。
3)タスク固有のモデリング要件を満たしながらタスク間の相互改善を可能にする共有結合ネットワーク。
4) 視覚理解エンコーダでは, パラメータ数の増加とともに知覚能力を大幅に向上させる, 知識の混合化機構が採用されている。
EMMA-4Bは、最近のマルチモーダル理解と生成の専門家(例えば、Qwen3-VLとQwen-Image)と比較して、効率と性能の両方において、最先端の統一マルチモーダルアプローチ(例えば、BAGEL-7B)を大幅に上回っている。
我々は,EMMAが統合マルチモーダルアーキテクチャの今後の発展の基盤となると信じている。
関連論文リスト
- MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation [20.14002849273559]
統一マルチモーダルモデルは、単一のフレームワーク内で理解と生成を統合することを目的としている。
本稿では,自己回帰拡散(AR-Diffusion)フレームワークであるMammothModa2(Mammoth2)を紹介する。
Mammoth2は、公開ベンチマークで強力なテキスト・ツー・イメージと命令ベースの編集性能を提供する。
論文 参考訳(メタデータ) (2025-11-23T03:25:39Z) - Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - PEM: Prototype-based Efficient MaskFormer for Image Segmentation [10.795762739721294]
最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。
複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
論文 参考訳(メタデータ) (2024-02-29T18:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。