Representation Forcing for Bottleneck-Free Unified Multimodal Models
Abstractの概要
本論文は、視覚理解と画像生成の両方を行う統合マルチモーダルモデルを研究し、既存のシステムは画像生成が個別に事前学習された凍結VAEに依存しているため、構造的なボトルネックを抱えていると主張している。著者らは、ピクセルを生成する前に、モデル自身の理解エンコーダーから得られた離散的な視覚表現トークンを自己回帰的に予測するようにデコーダーを訓練する「表現フォーシング(RF)」を提案する。予測された表現トークンはシーケンスに残り、同じTransformerバックボーン内でピクセル空間の拡散を誘導するため、外部の生成潜在空間の必要性を排除する。実験では、同一のアーキテクチャ、データ、および学習設定の下でピクセル空間とVAEベースのバリアントを比較し、テキストからの画像生成と画像理解の両方に対する効果を示している。
新規性
際立ったアイデアは、共同で学習された理解エンコーダーからの離散化された特徴を中間生成ターゲットとして使用し、表現予測を統合マルチモーダルモデルのネイティブなデコーダー機能にすることである。これにより、外部で事前学習されたVAE潜在変数は、単一のエンドツーエンドフレームワーク内で知覚と生成を結びつける文脈内表現トークンに置き換えられる。
成果
テキストからの画像生成において、ピクセル空間RFモデルは強力なVAEベースの統合ベースラインに匹敵し、LLMリライターなしで0.84 GenEvalおよび84.15 DPG-Benchに到達し、リライターありで0.88 GenEvalを達成した。理解についても、RFはピクセル空間とVAEベースの設定の両方を改善し、ピクセル空間RFバリアントは報告された8つのベンチマークのうち6つでVAE+RFバリアントを上回った。アブレーションにより、ピクセル空間生成においてRFが重要であることが示され(GenEvalを0.25から0.76に向上)、離散表現予測は連続回帰や補助的アライメントよりも優れていることが示された。
論文の注目点
- 表現フォーシングは、自己回帰的に予測された視覚表現トークンをテキストとピクセルの間に挿入するため、ピクセル生成は外部のVAE潜在空間ではなく、モデル自身の理解特徴によって誘導される。
- 制御された比較において、ピクセル空間RFモデルは、最大1024×1024の解像度で直接ピクセル空間で動作しながら、最先端のVAEベースの統合モデルに匹敵する生成品質を達成する。
- RFはまた、特に高レベルの視覚的意味論に関連するベンチマークにおいてマルチモーダル理解を向上させ、アブレーションにより、離散表現トークンが連続回帰や補助的特徴アライメントよりもはるかに効果的であることが示された。