論文の概要: LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2510.22946v2
- Date: Wed, 29 Oct 2025 04:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 13:34:45.441464
- Title: LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
- Title(参考訳): LightBagel: 統一マルチモーダル理解と生成のための軽量でダブルフュージョンフレームワーク
- Authors: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie,
- Abstract要約: 提案手法は, 生成と理解に特化して公開されているモデルを戦略的に融合させることにより, 競争性能をより効率的に得ることができることを示す。
我々のキーとなる設計は、ネットワーク全体にわたってマルチモーダルな自己注意ブロックをインターリーブしながら、元のブロックを保持することである。
たった35Bトークンでトレーニングすることで、このアプローチは複数のベンチマークで強力な結果が得られる。
- 参考スコア(独自算出の注目度): 48.02842078521973
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unified multimodal models have recently shown remarkable gains in both capability and versatility, yet most leading systems are still trained from scratch and require substantial computational resources. In this paper, we show that competitive performance can be obtained far more efficiently by strategically fusing publicly available models specialized for either generation or understanding. Our key design is to retain the original blocks while additionally interleaving multimodal self-attention blocks throughout the networks. This double fusion mechanism (1) effectively enables rich multi-modal fusion while largely preserving the original strengths of the base models, and (2) catalyzes synergistic fusion of high-level semantic representations from the understanding encoder with low-level spatial signals from the generation encoder. By training with only ~ 35B tokens, this approach achieves strong results across multiple benchmarks: 0.91 on GenEval for compositional text-to-image generation, 82.16 on DPG-Bench for complex text-to-image generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By fully releasing the entire suite of code, model weights, and datasets, we hope to support future research on unified multimodal modeling.
- Abstract(参考訳): 統一マルチモーダルモデルは、最近、能力と汎用性の両方において顕著な向上を示したが、ほとんどの主要なシステムは、まだスクラッチから訓練されており、かなりの計算資源を必要とする。
本稿では, 提案手法を用いて, 生成モデルと理解モデルの両方を戦略的に融合させることにより, 競争性能をより効率的に得ることができることを示す。
我々のキーとなる設計は、ネットワーク全体にわたってマルチモーダルな自己注意ブロックをインターリーブしながら、元のブロックを保持することである。
本発明の二重融合機構(1)は、ベースモデルの本来の強度を保ちつつ、リッチなマルチモーダル融合を効果的に実現し、(2)生成エンコーダから低レベル空間信号への理解エンコーダからの高レベル意味表現の相乗的融合を触媒する。
このアプローチは、わずか35Bのトークンでトレーニングすることで、GenEvalの0.91、複雑なテキスト-画像生成の82.16、GEditBenchの6.06、画像編集の3.77など、複数のベンチマークで強力な結果が得られる。
コードスイート、モデルウェイト、データセットを完全にリリースすることで、統合マルチモーダルモデリングに関する将来の研究を支援したいと思っています。
関連論文リスト
- DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文 参考訳(メタデータ) (2026-02-12T17:44:24Z) - DuoGen: Towards General Purpose Interleaved Multimodal Generation [65.13479486098419]
DuoGenは汎用的なインターリーブ生成フレームワークで、データキュレーション、アーキテクチャ設計、評価に対処する。
我々は、キュレートされた生のWebサイトから書き直されたマルチモーダルな会話を組み合わせることで、大規模で高品質な命令チューニングデータセットを構築する。
2段階の切り離し戦略はまずMLLMをインストラクションチューニングし、次にインターリーブされた画像テキストシーケンスを使用してDiTをアライメントする。
論文 参考訳(メタデータ) (2026-01-31T04:35:15Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer [90.72238747690972]
マルチモーダルな大規模言語モデルのためのシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。
単一の視覚エンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つのアダプタと、テキストから画像への生成のための離散トークンを提供する。
統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
論文 参考訳(メタデータ) (2025-09-19T17:58:00Z) - MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models [30.494968865008513]
最近のテキスト・ツー・イメージモデルは、正確な視覚制御、マルチモーダル入力のバランス、複雑な画像生成のための広範な訓練を必要とする。
自己回帰型マルチモーダル画像生成のための効率的なマルチモーダルコンディショニングのための新しいフレームワークであるMENTORを提案する。
本手法は,拡散法に比べて画像再構成精度,タスク適応性,トレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-07-13T10:52:59Z) - Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation [81.92275347127833]
統一モデルを開発する上で重要な課題は、画像理解に必要な視覚的特徴と生成の相違にある。
本稿では,この課題に対処する自動回帰型マルチモーダル基盤モデルであるPiscesを紹介する。
微妙なデータキュレーション、事前学習、微調整と組み合わせることで、ピッセは画像理解と画像生成の両方において競合する性能を達成する。
論文 参考訳(メタデータ) (2025-06-12T06:37:34Z) - Emerging Properties in Unified Multimodal Pretraining [32.856334401494145]
マルチモーダル理解と生成をサポートするオープンソースの基盤モデルであるBAGELを紹介する。
BAGELは、大規模なインターリーブ付きテキスト、画像、ビデオ、Webデータからキュレートされた数兆のトークンに基づいて事前訓練された、統一されたデコーダのみのモデルである。
オープンソースの統一モデルでは、マルチモーダル生成と標準ベンチマークでの理解の両方において、大幅に優れています。
論文 参考訳(メタデータ) (2025-05-20T17:59:30Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - EasyGen: Easing Multimodal Generation with BiDiffuser and LLMs [26.462946557604177]
EasyGenは、拡散モデルと大言語モデル(LLM)の機能を活用することで、マルチモーダル理解と生成を強化するように設計されている。
Easygen は、BiDiffuser と LLM を連結する投影層を訓練し、LLM のテキスト空間と BiDiffuser のイメージ空間を整列させるアダプタを訓練することで、テキスト生成を実現する。
論文 参考訳(メタデータ) (2023-10-13T08:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。