論文の概要: High-Fidelity Text-to-Image Generation from Pre-Trained Vision-Language Models via Distribution-Conditioned Diffusion Decoding
- arxiv url: http://arxiv.org/abs/2603.13389v1
- Date: Wed, 11 Mar 2026 07:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.154069
- Title: High-Fidelity Text-to-Image Generation from Pre-Trained Vision-Language Models via Distribution-Conditioned Diffusion Decoding
- Title(参考訳): 分布制約拡散復号による事前学習型視覚言語モデルからの高忠実テキスト・画像生成
- Authors: Ji Woo Hong, Hee Suk Yoon, Gwanhyeong Koo, Eunseop Yoon, SooHwan Eom, Qi Dai, Chong Luo, Chang D. Yoo,
- Abstract要約: 本稿では,出力画像に対する拡散復号器のみを訓練することにより,画像の忠実度を向上させる拡散復号化フレームワークを提案する。
軽量なLogitは、VQ-VAEエンコーダからのトレーニング時間プロキシロジットとVLM生成ロジットをアライメントすることで、トレイン推論ギャップを緩和する。
提案手法は,VLM予測トークンからVQ-VAE再構成とテキスト・ツー・画像生成の両方の視覚的忠実度を継続的に向上する。
- 参考スコア(独自算出の注目度): 64.13126192228604
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent large-scale vision-language models (VLMs) have shown remarkable text-to-image generation capabilities, yet their visual fidelity remains constrained by the discrete image tokenization, which poses a major challenge. Although several studies have explored continuous representation modeling to enhance visual quality, adapting pre-trained VLM models to such representations requires large-scale data and training costs comparable to the original pre-training. To circumvent this limitation, we propose a diffusion-based decoding framework that enhances image fidelity by training only a diffusion decoder on the output image-token logits of pre-trained VLMs, thereby preserving the original model intact. At its core, Logit-to-Code Distributional Mapping converts the VLM's image-token logits into continuous, distribution-weighted code vectors with uncertainty features, providing an effective conditioning signal for diffusion decoding. A lightweight Logit Calibration aligns training-time proxy logits from the VQ-VAE encoder with VLM-generated logits, mitigating the train-inference gap. Conditioned on these representations, the Distribution-Conditioned Diffusion Decoder generates high-fidelity images. Achieved solely through short training on ImageNet-1K, our method consistently improves visual fidelity for both VQ-VAE reconstructions and text-to-image generations from VLM-predicted tokens.
- Abstract(参考訳): 近年の大規模視覚言語モデル (VLM) はテキスト・画像生成能力に優れるが、その視覚的忠実度は離散的な画像トークン化によって制約され、大きな課題となっている。
いくつかの研究は、視覚的品質を向上させるために連続表現モデリングを研究してきたが、そのような表現に事前学習されたVLMモデルを適用するには、大規模なデータとトレーニングコストが元の事前学習に匹敵する。
この制限を回避するために,プリトレーニング済みVLMの出力画像トケロジットに拡散デコーダのみをトレーニングすることにより,画像の忠実度を高める拡散型デコーダを提案する。
中心となるLogit-to-Code Distributional Mappingは、VLMのイメージトーケンロジットを不確実性のある連続分布重み付きコードベクトルに変換し、拡散復号のための効果的な条件信号を提供する。
軽量なLogit Calibrationは、VQ-VAEエンコーダからのトレーニング時間プロキシロジットとVLM生成ロジットを調整し、トレイン-推論ギャップを緩和する。
これらの表現を条件に、分散制御拡散デコーダは高忠実度画像を生成する。
画像Net-1Kの短時間のトレーニングによってのみ達成され、VQ-VAE再構成とVLM予測トークンからのテキスト・ツー・画像生成の両面での視覚的忠実度を一貫して向上させる。
関連論文リスト
- UniFusion: Vision-Language Model as Unified Encoder in Image Generation [12.811191961286852]
We present UniFusion, a diffusion-based generative model conditioned on a frozen large vision- language model (VLM) that serve as an unified multimodal encoder。
LAPは、VLMから編集の鍵となる拡散モデルへの視覚情報の生成と忠実な伝達のために、テキストイメージアライメントにおいて、他の浅層融合アーキテクチャよりも優れていることを示す。
本稿では,VLMが生成するテキストトークンにのみ拡散変換器(DiT)を条件として,フレキシブル推論を用いたVLM-Enabled Rewriting Injectionを提案する。
論文 参考訳(メタデータ) (2025-10-14T17:57:56Z) - VUGEN: Visual Understanding priors for GENeration [18.840804846528865]
VUGENは、VLMの事前訓練された視覚的理解を、効率的で高品質な画像生成に明示的に活用する新しいフレームワークである。
我々のアプローチは、まずVLMのネイティブビジョンエンコーダの高次元潜在空間を、低次元、トラクタブルな分布に変換する。
専用のピクセルデコーダは、生成されたラテントをイメージ空間にマッピングする。
論文 参考訳(メタデータ) (2025-10-08T00:04:47Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。