論文の概要: Representation Forcing for Bottleneck-Free Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2605.31604v2
- Date: Wed, 03 Jun 2026 10:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 07:07:40.435913
- Title: Representation Forcing for Bottleneck-Free Unified Multimodal Models
- Title(参考訳): ボトルネックフリー統一マルチモーダルモデルの表現強制
- Authors: Yuqing Wang, Zhijie Lin, Ceyuan Yang, Yang Zhao, Fei Xiao, Hao He, Qi Zhao, Zihan Ding, Fuyun Wang, Shuai Wang, Youliang Zhang, Haoqi Fan, Xihui Liu,
- Abstract要約: 統一マルチモーダルモデル(UMM)は、単一モデルにおける知覚と生成を扱うことを目的としている。
既存のUMMは、画像生成のために別々に訓練された凍結したVAEに依存しており、構造的なボトルネックを示唆している。
本稿では,表現予測をモデルのネイティブ機能にすることで,このギャップを埋める手法であるRepresentation Forcing(RF)を提案する。
- 参考スコア(独自算出の注目度): 76.99907273945493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal models (UMMs) aim to handle perception and generation in a single model. Yet existing UMMs still rely on a frozen, separately pretrained VAE for image generation, imposing a structural bottleneck. Naively removing it introduces a quality gap, as the model must learn both high-level structure and low-level details from raw pixels. In this paper, we propose Representation Forcing (RF), a technique that closes this gap by making representation prediction a native capability of the model. Concretely, RF forces the decoder to autoregressively predict visual representations as intermediate tokens before pixels; these tokens then stay in context to guide pixel diffusion within the same backbone. By turning representations from perception outputs into generation targets, RF eliminates the need for any external generative latent space. We find that RF benefits both understanding and generation. On image generation, our pixel-space model with RF matches state-of-the-art VAE-based unified models. On image understanding, pixel-space RF generally outperforms its VAE-based variant. Together, these results offer an effective step toward end-to-end, bottleneck-free UMMs.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、単一モデルにおける知覚と生成を扱うことを目的としている。
しかし、既存のUMMは、画像生成のために別々に訓練された、凍結したVAEに依存しており、構造的なボトルネックを示唆している。
モデルが生のピクセルから高レベルな構造と低レベルな詳細の両方を学ぶ必要があるため、ネイティブに取り除くことで品質のギャップが生じる。
本稿では,表現予測をモデルのネイティブ機能にすることで,このギャップを埋める手法であるRepresentation Forcing(RF)を提案する。
具体的には、RFはデコーダにピクセル前の中間トークンとして視覚表現を自動回帰的に予測させ、これらのトークンは同じバックボーン内のピクセル拡散を誘導するためにコンテキスト内に留まる。
知覚出力からの表現を生成対象にすることで、RFは外部生成潜在空間の必要性を排除する。
RFは理解と生成の両面で有益である。
画像生成において、RFを用いた画素空間モデルは、最先端のVAEベースの統一モデルと一致する。
画像理解において、ピクセル空間RFは一般にVAEベースの変種よりも優れている。
これらの結果は、エンドツーエンドでボトルネックのないUMMへの効果的なステップを提供する。
関連論文リスト
- FARMER: Flow AutoRegressive Transformer over Pixels [39.864972164994946]
本稿では,正規化フロー(NF)と自己回帰(AR)モデルを統一した新しいエンドツーエンド生成フレームワークを提案する。
FARMERは非可逆自己回帰流を用いて画像を潜在シーケンスに変換し、その分布は自己回帰モデルによって暗黙的にモデル化される。
FARMERは,既存の画素ベース生成モデルと比較して,競合性能が高いことを示す。
論文 参考訳(メタデータ) (2025-10-27T17:54:08Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。