論文の概要: Implicit and Explicit Language Guidance for Diffusion-based Visual Perception
- arxiv url: http://arxiv.org/abs/2404.07600v2
- Date: Mon, 22 Apr 2024 13:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 20:47:39.264880
- Title: Implicit and Explicit Language Guidance for Diffusion-based Visual Perception
- Title(参考訳): 拡散に基づく視覚知覚のための暗黙的・明示的言語指導
- Authors: Hefeng Wang, Jiale Cao, Jin Xie, Aiping Yang, Yanwei Pang,
- Abstract要約: テキスト・ツー・イメージ拡散モデルでは、テクスチャが豊かで、異なるテキストプロンプトの下で合理的な構造を持つ高品質な画像を生成することができる。
拡散に基づく知覚のための暗黙的かつ明示的な言語指導フレームワークIEDPを提案する。
我々のIEDPは、セマンティックセグメンテーションと深さ推定を含む2つの典型的な知覚タスクにおいて有望な性能を達成する。
- 参考スコア(独自算出の注目度): 42.71751651417168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have shown powerful ability on conditional image synthesis. With large-scale vision-language pre-training, diffusion models are able to generate high-quality images with rich texture and reasonable structure under different text prompts. However, it is an open problem to adapt the pre-trained diffusion model for visual perception. In this paper, we propose an implicit and explicit language guidance framework for diffusion-based perception, named IEDP. Our IEDP comprises an implicit language guidance branch and an explicit language guidance branch. The implicit branch employs frozen CLIP image encoder to directly generate implicit text embeddings that are fed to diffusion model, without using explicit text prompts. The explicit branch utilizes the ground-truth labels of corresponding images as text prompts to condition feature extraction of diffusion model. During training, we jointly train diffusion model by sharing the model weights of these two branches. As a result, implicit and explicit branches can jointly guide feature learning. During inference, we only employ implicit branch for final prediction, which does not require any ground-truth labels. Experiments are performed on two typical perception tasks, including semantic segmentation and depth estimation. Our IEDP achieves promising performance on both tasks. For semantic segmentation, our IEDP has the mIoU$^\text{ss}$ score of 55.9% on AD20K validation set, which outperforms the baseline method VPD by 2.2%. For depth estimation, our IEDP outperforms the baseline method VPD with a relative gain of 11.0%.
- Abstract(参考訳): テキストと画像の拡散モデルは条件付き画像合成に強力な能力を示している。
大規模視覚言語による事前学習により、拡散モデルは、異なるテキストプロンプトの下で、リッチなテクスチャと合理的な構造を持つ高品質な画像を生成することができる。
しかし、事前学習した拡散モデルを視覚知覚に適用することは、オープンな問題である。
本稿では,拡散に基づく知覚のための暗黙的かつ明示的な言語指導フレームワークIEDPを提案する。
当社のIEDPは暗黙の言語ガイダンスブランチと明示的な言語ガイダンスブランチで構成されています。
暗黙のブランチは凍結したCLIPイメージエンコーダを使用して、明示的なテキストプロンプトを使わずに拡散モデルに供給される暗黙のテキスト埋め込みを直接生成する。
明示分岐は、拡散モデルの条件特徴抽出にテキストプロンプトとして、対応する画像の接地木ラベルを利用する。
トレーニング中、これらの2つのブランチのモデル重みを共有することで、拡散モデルを共同で訓練する。
その結果、暗黙の枝と明示的な枝は、特徴学習を共同でガイドすることができる。
推測では,最終予測には暗黙の分岐のみを用いる。
セマンティックセグメンテーションと深さ推定を含む2つの典型的な知覚タスクで実験を行う。
当社のIEDPは両タスクで有望なパフォーマンスを実現しています。
セマンティックセグメンテーションのために、我々のIEDPは、AD20K検証セットのmIoU$^\text{ss}$スコア55.9%を持ち、ベースラインメソッドVPDを2.2%上回る。
深度推定では, ベースライン法VPDの相対利得が11.0%であった。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion
Models [44.17304848026688]
ODISE: オープンボキャブラリ拡散に基づくパノプティカルセグメンテーションについて述べる。
事前訓練されたテキストイメージ拡散と識別モデルを統一し、オープン語彙セグメンテーションを実行する。
オープン・ボキャブラリ・パノプティクスとセマンティック・セグメンテーションの両タスクにおいて,従来の技術状況よりも優れていた。
論文 参考訳(メタデータ) (2023-03-08T18:58:26Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。