論文の概要: Harmonizing Visual Representations for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2503.21979v1
- Date: Thu, 27 Mar 2025 20:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:49.357233
- Title: Harmonizing Visual Representations for Unified Multimodal Understanding and Generation
- Title(参考訳): 統一型マルチモーダル理解・生成のための視覚表現の調和
- Authors: Size Wu, Wenwei Zhang, Lumin Xu, Sheng Jin, Zhonghua Wu, Qingyi Tao, Wentao Liu, Wei Li, Chen Change Loy,
- Abstract要約: 我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
- 参考スコア(独自算出の注目度): 53.01486796503091
- License:
- Abstract: Unifying visual understanding and generation within a single multimodal framework remains a significant challenge, as the two inherently heterogeneous tasks require representations at different levels of granularity. Current approaches that utilize vector quantization (VQ) or variational autoencoders (VAE) for unified visual representation prioritize intrinsic imagery features over semantics, compromising understanding performance. In this work, we take inspiration from masked image modelling (MIM) that learns rich semantics via a mask-and-reconstruct pre-training and its successful extension to masked autoregressive (MAR) image generation. A preliminary study on the MAR encoder's representation reveals exceptional linear probing accuracy and precise feature response to visual concepts, which indicates MAR's potential for visual understanding tasks beyond its original generation role. Based on these insights, we present \emph{Harmon}, a unified autoregressive framework that harmonizes understanding and generation tasks with a shared MAR encoder. Through a three-stage training procedure that progressively optimizes understanding and generation capabilities, Harmon achieves state-of-the-art image generation results on the GenEval, MJHQ30K and WISE benchmarks while matching the performance of methods with dedicated semantic encoders (e.g., Janus) on image understanding benchmarks. Our code and models will be available at https://github.com/wusize/Harmon.
- Abstract(参考訳): 単一のマルチモーダルフレームワーク内での視覚的理解と生成を統一することは、本質的に異質な2つのタスクは異なるレベルの粒度の表現を必要とするため、依然として重要な課題である。
ベクトル量子化(VQ)や変分オートエンコーダ(VAE)を併用した現在のアプローチでは、セマンティクスよりも固有の特徴が優先され、理解性能が向上している。
本研究では,マスク・アンド・リコンストラクト・プレトレーニングによるリッチセマンティクスの学習と,マスク・アンド・リコンストラクション(MAR)画像生成への拡張に成功したマスク・アンド・リコンストラクション(MIM)からインスピレーションを得た。
MARエンコーダの表現に関する予備的研究では、視覚的概念に対する例外的な線形探索精度と正確な特徴応答が示され、これはMARの視覚的理解タスクが元の世代的役割を超える可能性を示している。
これらの知見に基づき、共有MARエンコーダを用いて理解と生成タスクを調和させる統合自己回帰フレームワークである \emph{Harmon} を提示する。
理解と生成能力を段階的に最適化する3段階のトレーニング手順により、HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成すると同時に、画像理解ベンチマークで専用のセマンティックエンコーダ(例えばJanus)とメソッドのパフォーマンスをマッチングする。
私たちのコードとモデルはhttps://github.com/wusize/Harmon.comで公開されます。
関連論文リスト
- QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z) - Gaussian Masked Autoencoders [74.2341070024126]
本稿では,Masked Autoencoders (MAE) をガウススプラッティングで探索する。
GMAE(Gaussian Masked Autoencoder)と呼ばれる我々のアプローチは,意味論的抽象化と空間的理解を共同で学習することを目的としている。
論文 参考訳(メタデータ) (2025-01-06T18:59:57Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Abstracted Gaussian Prototypes for One-Shot Concept Learning [0.0]
視覚概念の高レベル表現を符号化するクラスタベース生成画像分割フレームワークを提案する。
提案したフレームワークは印象的だが最先端の分類精度には至らない。
論文 参考訳(メタデータ) (2024-08-30T12:50:15Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。
本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。
潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文 参考訳(メタデータ) (2022-10-20T17:59:54Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。