論文の概要: Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.07104v1
- Date: Wed, 09 Jul 2025 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.721375
- Title: Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models
- Title(参考訳): Vision-Language-Vision Auto-Encoder:拡散モデルによるスケーラブルな知識蒸留
- Authors: Tiezheng Zhang, Yitong Li, Yu-cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao,
- Abstract要約: 本稿では,VLV(Vision-Language-Vision)自動エンコーダフレームワークを紹介する。
我々は、テキスト・ツー・イメージ拡散モデル(T2I)のデコーダである視覚エンコーダを使用し、その後、大言語モデル(LLM)を用いる。
提案手法は費用対効果が極めて高く,データ要求を大幅に削減する。
- 参考スコア(独自算出の注目度): 14.597523734449405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building state-of-the-art Vision-Language Models (VLMs) with strong captioning capabilities typically necessitates training on billions of high-quality image-text pairs, requiring millions of GPU hours. This paper introduces the Vision-Language-Vision (VLV) auto-encoder framework, which strategically leverages key pretrained components: a vision encoder, the decoder of a Text-to-Image (T2I) diffusion model, and subsequently, a Large Language Model (LLM). Specifically, we establish an information bottleneck by regularizing the language representation space, achieved through freezing the pretrained T2I diffusion decoder. Our VLV pipeline effectively distills knowledge from the text-conditioned diffusion model using continuous embeddings, demonstrating comprehensive semantic understanding via high-quality reconstructions. Furthermore, by fine-tuning a pretrained LLM to decode the intermediate language representations into detailed descriptions, we construct a state-of-the-art (SoTA) captioner comparable to leading models like GPT-4o and Gemini 2.0 Flash. Our method demonstrates exceptional cost-efficiency and significantly reduces data requirements; by primarily utilizing single-modal images for training and maximizing the utility of existing pretrained models (image encoder, T2I diffusion model, and LLM), it circumvents the need for massive paired image-text datasets, keeping the total training expenditure under $1,000 USD.
- Abstract(参考訳): 強力なキャプション機能を備えた最先端のVision-Language Model(VLM)を構築するには、何十億もの高品質の画像テキストペアのトレーニングが必要で、数百万のGPU時間が必要になる。
本稿では、VLV(Vision-Language-Vision)自動エンコーダフレームワークを紹介する。このフレームワークは、視覚エンコーダ、テキスト・トゥ・イメージ(T2I)拡散モデルのデコーダ、そして、Large Language Model(LLM)を戦略的に活用する。
具体的には、事前学習したT2I拡散デコーダを凍結することで達成した言語表現空間を正規化することで、情報ボトルネックを確立する。
我々のVLVパイプラインは、連続埋め込みを用いてテキスト条件拡散モデルから知識を効果的に抽出し、高品質な再構築による包括的意味理解を実証する。
さらに、事前訓練されたLLMを微調整して、中間言語表現を詳細な記述にデコードすることで、GPT-4oやGemini 2.0 Flashといった主要なモデルに匹敵する最先端(SoTA)キャプタを構築する。
本手法は,既存の事前学習モデル(画像エンコーダ,T2I拡散モデル,LLM)をトレーニング・最大化するために単一モーダル画像を利用することで,大量の画像テキストデータセットの必要性を回避し,総トレーニング費を1,000ドル以下に抑える。
関連論文リスト
- Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - Mug-STAN: Adapting Image-Language Pretrained Models for General Video
Understanding [47.97650346560239]
マルチガイドアライメントモジュール(Mug-STAN)を用いた空間時間補助ネットワークを提案する。
Mug-STANは、CLIPやCoCaといった言語画像事前学習モデルの、ビデオテキスト後トレーニングと微調整の段階における適応性を著しく改善する。
論文 参考訳(メタデータ) (2023-11-25T17:01:38Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Linear Alignment of Vision-language Models for Image Captioning [8.921774238325566]
本稿では,ReCapと呼ばれる軽量キャプション手法を提案する。
また,CLIPスコアに基づく2つの新しい学習ベース画像キャプチャーメトリクスと,提案したアライメントを提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks [38.05496300873095]
ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。
X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
論文 参考訳(メタデータ) (2022-11-22T16:48:01Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。