論文の概要: Unleashing Text-to-Image Diffusion Models for Visual Perception
- arxiv url: http://arxiv.org/abs/2303.02153v1
- Date: Fri, 3 Mar 2023 18:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 13:45:52.983722
- Title: Unleashing Text-to-Image Diffusion Models for Visual Perception
- Title(参考訳): 視覚知覚のためのテキストと画像の拡散モデル
- Authors: Wenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu
- Abstract要約: VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
- 参考スコア(独自算出の注目度): 84.41514649568094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) have become the new trend of generative models and
have demonstrated a powerful ability of conditional synthesis. Among those,
text-to-image diffusion models pre-trained on large-scale image-text pairs are
highly controllable by customizable prompts. Unlike the unconditional
generative models that focus on low-level attributes and details, text-to-image
diffusion models contain more high-level knowledge thanks to the
vision-language pre-training. In this paper, we propose VPD (Visual Perception
with a pre-trained Diffusion model), a new framework that exploits the semantic
information of a pre-trained text-to-image diffusion model in visual perception
tasks. Instead of using the pre-trained denoising autoencoder in a
diffusion-based pipeline, we simply use it as a backbone and aim to study how
to take full advantage of the learned knowledge. Specifically, we prompt the
denoising decoder with proper textual inputs and refine the text features with
an adapter, leading to a better alignment to the pre-trained stage and making
the visual contents interact with the text prompts. We also propose to utilize
the cross-attention maps between the visual features and the text features to
provide explicit guidance. Compared with other pre-training methods, we show
that vision-language pre-trained diffusion models can be faster adapted to
downstream visual perception tasks using the proposed VPD. Extensive
experiments on semantic segmentation, referring image segmentation and depth
estimation demonstrates the effectiveness of our method. Notably, VPD attains
0.254 RMSE on NYUv2 depth estimation and 73.3% oIoU on RefCOCO-val referring
image segmentation, establishing new records on these two benchmarks. Code is
available at https://github.com/wl-zhao/VPD
- Abstract(参考訳): 拡散モデル(DM)は、生成モデルの新たなトレンドとなり、条件合成の強力な能力を示している。
これらのうち、大規模画像-テキストペアで事前訓練されたテキスト-画像拡散モデルは、カスタマイズ可能なプロンプトによって高度に制御可能である。
低レベルの属性と詳細に焦点を当てた無条件生成モデルとは異なり、テキストから画像への拡散モデルは視覚言語の事前学習により高レベルな知識を含んでいる。
本稿では,事前学習されたテキスト・画像拡散モデルの視覚知覚タスクにおける意味情報を利用する新しいフレームワークであるVPD(Visual Perception with a Pre-trained Diffusion model)を提案する。
拡散ベースのパイプラインで事前トレーニングされたデノーミングオートエンコーダを使用する代わりに、単にバックボーンとして使用し、学習した知識を最大限に活用する方法を研究することを目的としています。
具体的には,適切なテキスト入力を付加したデコーダを推奨し,アダプタでテキスト機能を洗練することにより,事前学習されたステージへのアライメントが向上し,テキストプロンプトと視覚コンテンツの対話性が向上する。
また,視覚的特徴とテキスト的特徴の相互注意マップを用いて,明示的なガイダンスを提案する。
他の事前学習法と比較して,提案したVPDを用いて,視覚言語による事前学習拡散モデルが下流の視覚知覚タスクに迅速に適応できることを示す。
セマンティックセグメンテーション, 画像セグメンテーション, 深度推定に関する大規模な実験により, 提案手法の有効性が示された。
特に、VPDはNYUv2深度推定で0.254 RMSE、RefCO-val参照画像セグメンテーションで73.3%のoIoUを獲得し、2つのベンチマークで新しい記録を確立した。
コードはhttps://github.com/wl-zhao/VPDで入手できる。
関連論文リスト
- Implicit and Explicit Language Guidance for Diffusion-based Visual Perception [42.71751651417168]
テキスト・ツー・イメージ拡散モデルでは、テクスチャが豊かで、異なるテキストプロンプトの下で合理的な構造を持つ高品質な画像を生成することができる。
拡散に基づく知覚のための暗黙的かつ明示的な言語指導フレームワークIEDPを提案する。
我々のIEDPは、セマンティックセグメンテーションと深さ推定を含む2つの典型的な知覚タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2024-04-11T09:39:58Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。