論文の概要: VUGEN: Visual Understanding priors for GENeration
- arxiv url: http://arxiv.org/abs/2510.06529v1
- Date: Wed, 08 Oct 2025 00:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.234164
- Title: VUGEN: Visual Understanding priors for GENeration
- Title(参考訳): VUGEN: ジェネレーションの視覚的理解
- Authors: Xiangyi Chen, Théophane Vallaeys, Maha Elbayad, John Nguyen, Jakob Verbeek,
- Abstract要約: VUGENは、VLMの事前訓練された視覚的理解を、効率的で高品質な画像生成に明示的に活用する新しいフレームワークである。
我々のアプローチは、まずVLMのネイティブビジョンエンコーダの高次元潜在空間を、低次元、トラクタブルな分布に変換する。
専用のピクセルデコーダは、生成されたラテントをイメージ空間にマッピングする。
- 参考スコア(独自算出の注目度): 18.840804846528865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have enabled unified understanding across text and images, yet equipping these models with robust image generation capabilities remains challenging. Existing approaches often rely on reconstruction-oriented autoencoders or complex bridging mechanisms, leading to misalignment between understanding and generation representations, or architectural complexity. In this work, we propose VUGEN, a novel framework that explicitly leverages VLM's pretrained visual understanding priors for efficient and high-quality image generation. Our approach first transforms the high-dimensional latent space of the VLM's native vision encoder into a lower-dimensional, tractable distribution that maximally preserves visual information. The VLM is then trained to sample within this reduced latent space, ensuring alignment with its visual understanding capabilities. Finally, a dedicated pixel decoder maps these generated latents back to the image space. We find that a VAE-free pixel diffusion decoder to be on par or better than commonly used complex latent diffusion decoders that internally rely on VAE latents. Extensive experiments demonstrate that VUGEN achieves superior image generation performance, improving DPG Bench from 71.17 to 74.32 and FID from 11.86 to 9.06 on COCO, while fully preserving the VLM's original understanding capabilities.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の進歩により、テキストや画像の統一的な理解が可能になったが、これらのモデルに堅牢な画像生成機能を持たせることは依然として困難である。
既存のアプローチは、しばしば再構成指向のオートエンコーダや複雑なブリッジ機構に依存し、理解と生成表現のミスアライメントやアーキテクチャの複雑さをもたらす。
本稿では,VLMの事前学習した視覚的理解を有効かつ高品質な画像生成に有効活用する新しいフレームワークであるVUGENを提案する。
我々のアプローチは、まずVLMのネイティブビジョンエンコーダの高次元潜在空間を、視覚情報を最大に保存する低次元のトラクタブル分布に変換する。
VLMは、この縮小された潜伏空間内でサンプルを採取するように訓練され、その視覚的理解能力と整合性を確保する。
最後に、専用のピクセルデコーダが生成したラテントを画像空間にマッピングする。
VAEフリーの画素拡散デコーダは、VAEラテントに依存した複雑なラテント拡散デコーダと同等かそれ以上であることがわかった。
大規模な実験により、VUGENは優れた画像生成性能を示し、DPGベンチを71.17から74.32に改善し、COCO上のFIDを11.86から9.06に改善した。
関連論文リスト
- Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models [9.24989979549793]
VLM(Vision-Language Models)は、様々な現実世界のタスクにおいて顕著なパフォーマンスを示す。
これらのモデルは通常、画像のシリアライズによって視覚情報を処理する。
本稿では,デコード効率を向上させるために,プラグアンドプレイ型ビジュアルデコーダに基づく命令非依存のトークン圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-23T16:07:18Z) - ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding [13.295759874474767]
視覚言語モデル(VLM)に適した新しいフレームワークViSpec(ViSpec)を紹介する。
ViSpecは画像トークンをコンパクトな表現に圧縮するために軽量な視覚適応モジュールを使用している。
我々のトレーニング戦略は、ターゲットモデルの隠れた状態への直接アクセスを利用するドラフトモデルのリスクを軽減する。
論文 参考訳(メタデータ) (2025-09-17T11:28:58Z) - EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。
まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。
潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文 参考訳(メタデータ) (2024-10-10T06:27:46Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - High Fidelity Image Synthesis With Deep VAEs In Latent Space [0.0]
階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。
この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。
我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-23T23:45:19Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。