論文の概要: LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2510.22946v1
- Date: Mon, 27 Oct 2025 02:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.4286
- Title: LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
- Title(参考訳): LightBagel: 統一マルチモーダル理解と生成のための軽量でダブルフュージョンフレームワーク
- Authors: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie,
- Abstract要約: 提案手法は, 生成と理解に特化して公開されているモデルを戦略的に融合させることにより, 競争性能をより効率的に得ることができることを示す。
我々のキーとなる設計は、ネットワーク全体にわたってマルチモーダルな自己注意ブロックをインターリーブしながら、元のブロックを保持することである。
たった35Bトークンでトレーニングすることで、このアプローチは複数のベンチマークで強力な結果が得られる。
- 参考スコア(独自算出の注目度): 48.02842078521973
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unified multimodal models have recently shown remarkable gains in both capability and versatility, yet most leading systems are still trained from scratch and require substantial computational resources. In this paper, we show that competitive performance can be obtained far more efficiently by strategically fusing publicly available models specialized for either generation or understanding. Our key design is to retain the original blocks while additionally interleaving multimodal self-attention blocks throughout the networks. This double fusion mechanism (1) effectively enables rich multi-modal fusion while largely preserving the original strengths of the base models, and (2) catalyzes synergistic fusion of high-level semantic representations from the understanding encoder with low-level spatial signals from the generation encoder. By training with only ~ 35B tokens, this approach achieves strong results across multiple benchmarks: 0.91 on GenEval for compositional text-to-image generation, 82.16 on DPG-Bench for complex text-to-image generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By fully releasing the entire suite of code, model weights, and datasets, we hope to support future research on unified multimodal modeling.
- Abstract(参考訳): 統一マルチモーダルモデルは、最近、能力と汎用性の両方において顕著な向上を示したが、ほとんどの主要なシステムは、まだスクラッチから訓練されており、かなりの計算資源を必要とする。
本稿では, 提案手法を用いて, 生成モデルと理解モデルの両方を戦略的に融合させることにより, 競争性能をより効率的に得ることができることを示す。
我々のキーとなる設計は、ネットワーク全体にわたってマルチモーダルな自己注意ブロックをインターリーブしながら、元のブロックを保持することである。
本発明の二重融合機構(1)は、ベースモデルの本来の強度を保ちつつ、リッチなマルチモーダル融合を効果的に実現し、(2)生成エンコーダから低レベル空間信号への理解エンコーダからの高レベル意味表現の相乗的融合を触媒する。
このアプローチは、わずか35Bのトークンでトレーニングすることで、GenEvalの0.91、複雑なテキスト-画像生成の82.16、GEditBenchの6.06、画像編集の3.77など、複数のベンチマークで強力な結果が得られる。
コードスイート、モデルウェイト、データセットを完全にリリースすることで、統合マルチモーダルモデリングに関する将来の研究を支援したいと思っています。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer [90.72238747690972]
マルチモーダルな大規模言語モデルのためのシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。
単一の視覚エンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つのアダプタと、テキストから画像への生成のための離散トークンを提供する。
統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
論文 参考訳(メタデータ) (2025-09-19T17:58:00Z) - Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation [81.92275347127833]
統一モデルを開発する上で重要な課題は、画像理解に必要な視覚的特徴と生成の相違にある。
本稿では,この課題に対処する自動回帰型マルチモーダル基盤モデルであるPiscesを紹介する。
微妙なデータキュレーション、事前学習、微調整と組み合わせることで、ピッセは画像理解と画像生成の両方において競合する性能を達成する。
論文 参考訳(メタデータ) (2025-06-12T06:37:34Z) - Emerging Properties in Unified Multimodal Pretraining [32.856334401494145]
マルチモーダル理解と生成をサポートするオープンソースの基盤モデルであるBAGELを紹介する。
BAGELは、大規模なインターリーブ付きテキスト、画像、ビデオ、Webデータからキュレートされた数兆のトークンに基づいて事前訓練された、統一されたデコーダのみのモデルである。
オープンソースの統一モデルでは、マルチモーダル生成と標準ベンチマークでの理解の両方において、大幅に優れています。
論文 参考訳(メタデータ) (2025-05-20T17:59:30Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。