論文の概要: Unified Multimodal Model as Auto-Encoder
- arxiv url: http://arxiv.org/abs/2509.09666v2
- Date: Mon, 29 Sep 2025 20:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.808019
- Title: Unified Multimodal Model as Auto-Encoder
- Title(参考訳): オートエンコーダとしての統一マルチモーダルモデル
- Authors: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan,
- Abstract要約: 本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
- 参考スコア(独自算出の注目度): 69.38946823657592
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The pursuit of unified multimodal models (UMMs) has long been hindered by a fundamental schism between multimodal understanding and generation. Current approaches typically disentangle the two and treat them as separate endeavors with disjoint objectives, missing the mutual benefits. We argue that true unification requires more than just merging two tasks. It requires a unified, foundational objective that intrinsically links them. In this paper, we introduce an insightful paradigm through the Auto-Encoder lens, i.e., regarding understanding as the encoder (I2T) that compresses images into text, and generation as the decoder (T2I) that reconstructs images from that text. To implement this, we propose UAE, where we begin by pre-training the decoder with the proposed 700k long-context image-caption pairs to direct it to "understand" the fine-grained and complex semantics from the text. We then propose Unified-GRPO via reinforcement learning (RL) to unify the two, which covers two complementary stages: (1) Generation for Understanding, where the encoder is trained to generate informative captions that maximize the decoder's reconstruction quality, enhancing its visual perception; (2) Understanding for Generation, where the decoder is refined to reconstruct from these captions, forcing it to leverage every detail and improving its long-context instruction following and generation fidelity. Our empirical results suggest that understanding can largely enhance generation (verified on GenEval), while generation, in turn, notably strengthens fine-grained visual perception like small object and color recognition (verified on MMT-Bench). This bidirectional improvement reveals a deep synergy: under the unified reconstruction objective, generation and understanding can mutually benefit each other, moving closer to truly unified multimodal intelligence.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)の追求は、長年にわたり、マルチモーダル理解と生成の基本的な分裂によって妨げられている。
現在のアプローチでは、通常は2つを分離し、互いに利益を欠く、相容れない目的を持つ別々の試みとして扱う。
真の統一には2つのタスクをマージする以上のものが必要だ、と私たちは主張する。
本質的にリンクする統合された基礎的な目的が必要です。
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解について,Auto-Encoderレンズによる洞察に富んだパラダイムを紹介する。
そこで本研究では,700kの長文画像キャプチャペアを用いてデコーダを事前学習し,テキストから微細で複雑なセマンティクスを"理解"するためのUAEを提案する。
次に,2つの相補的な段階を包含する強化学習(RL)による統一GRPOを提案する。(1)エンコーダの生成,(2)デコーダの再構築品質を最大化し,視覚的知覚を向上させる情報キャプションの生成,(2)デコーダを改良してこれらのキャプションから再構成し,すべてのディテールを活用させ,その長文命令の追従と生成フィテリティーを改善すること。
我々の経験的結果は、理解は生成(GenEvalで検証される)を大幅に向上させ、生成は、特に小さな物体や色認識(MT-Benchで検証される)のようなきめ細かい視覚的知覚を強化することを示唆している。
この双方向改善は、統合された再構築の目的の下では、生成と理解は相互に利益をもたらし、真の統合されたマルチモーダルインテリジェンスに近づきます。
関連論文リスト
- Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders [46.79030733172859]
本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルのためのシンプソン・リライト(T2G)パラダイムを提案する。
推論に基づく画像生成と編集ベンチマークにより,現実の一貫性,セマンティックアライメント,視覚的リアリズムが大幅に改善された。
この結果は,推論,表現,実証能力を備えた次世代統一モデルに向けての有望な一歩となる。
論文 参考訳(メタデータ) (2026-01-15T12:19:05Z) - Forge-and-Quench: Enhancing Image Generation for Higher Fidelity in Unified Multimodal Models [23.529904770014735]
本稿では, 画像の忠実度と詳細性を高めるために理解を活用するという, 新たな視点を紹介する。
我々は、この原則を実践する新しい統一フレームワークForge-and-Quenchを提案する。
実験により、Forge-and-Quenchは複数のモデルで画像の忠実度とディテールを大幅に改善することが示された。
論文 参考訳(メタデータ) (2026-01-08T08:18:44Z) - EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture [87.55157183411507]
マルチモーダル理解・生成・編集のための効率よく統一されたアーキテクチャEMMAを提案する。
EMMAは主に1)32倍圧縮率の効率的なオートエンコーダから成り、生成に必要なトークンの数を大幅に削減する。
2) 視覚的理解と生成トークン間のトークンワイドな結合ではなく,チャネルワイドな結合により,統一アーキテクチャにおける視覚的トークンの低減が図られる。
論文 参考訳(メタデータ) (2025-12-04T14:01:53Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - SEDEG:Sequential Enhancement of Decoder and Encoder's Generality for Class Incremental Learning with Small Memory [11.197556113382186]
インクリメンタルラーニングでは、動的データ入力に適応するために、知識の一般性を高めることが不可欠である。
SEDEGは、一般化表現を学ぶために機能強化を通じてアンサンブルエンコーダを訓練する。
次の段階では、知識蒸留戦略を用いてエンサンブルエンコーダを圧縮し、より一般化されたエンコーダを開発する。
論文 参考訳(メタデータ) (2025-08-18T13:55:59Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies [25.77487827338777]
再建のために訓練された視覚トークンーは、低レベルの知覚の詳細を捉えるのに優れる。
対照的な学習によって訓練された視覚エンコーダは、言語とよく一致しているが、生成タスクのためにピクセル空間に復号化するのに苦労する。
本稿では,単一のトークン化器内での理解と生成の両方の表現を統一する手法であるDualTokenを提案する。
論文 参考訳(メタデータ) (2025-03-18T14:56:46Z) - QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video
Retrieval [67.52910255064762]
時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
まず、時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
自己スーパービジョンから得られたセマンティック類似性知識の助けを借りて、ハッシュ層はセマンティック検索のための情報を取得することを学習する。
このようにして、モデルは自然に二進的なコードに絡み合ったセマンティクスを保存します。
論文 参考訳(メタデータ) (2023-10-12T03:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。