論文の概要: Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors
- arxiv url: http://arxiv.org/abs/2401.16459v1
- Date: Mon, 29 Jan 2024 10:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 17:27:04.122994
- Title: Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors
- Title(参考訳): 拡散先行した統一視覚知覚のためのブリッジ生成モデルと識別モデル
- Authors: Shiyin Dong, Mingrui Zhu, Kun Cheng, Nannan Wang, Xinbo Gao
- Abstract要約: 本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
- 参考スコア(独自算出の注目度): 56.82596340418697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable prowess of diffusion models in image generation has spurred
efforts to extend their application beyond generative tasks. However, a
persistent challenge exists in lacking a unified approach to apply diffusion
models to visual perception tasks with diverse semantic granularity
requirements. Our purpose is to establish a unified visual perception
framework, capitalizing on the potential synergies between generative and
discriminative models. In this paper, we propose Vermouth, a simple yet
effective framework comprising a pre-trained Stable Diffusion (SD) model
containing rich generative priors, a unified head (U-head) capable of
integrating hierarchical representations, and an adapted expert providing
discriminative priors. Comprehensive investigations unveil potential
characteristics of Vermouth, such as varying granularity of perception
concealed in latent variables at distinct time steps and various U-net stages.
We emphasize that there is no necessity for incorporating a heavyweight or
intricate decoder to transform diffusion models into potent representation
learners. Extensive comparative evaluations against tailored discriminative
models showcase the efficacy of our approach on zero-shot sketch-based image
retrieval (ZS-SBIR), few-shot classification, and open-vocabulary semantic
segmentation tasks. The promising results demonstrate the potential of
diffusion models as formidable learners, establishing their significance in
furnishing informative and robust visual representations.
- Abstract(参考訳): 画像生成における拡散モデルの顕著な傾向は、その応用を生成的タスクを超えて拡張する努力を促した。
しかし、様々な意味的粒度の要求を伴う視覚知覚タスクに拡散モデルを適用する統一的なアプローチが欠如している。
本研究の目的は、生成モデルと識別モデルとの潜在的な相乗効果を活かした統一視覚知覚フレームワークの構築である。
本稿では,事前学習済み安定拡散(sd)モデルと,階層的表現を統合可能な統一ヘッド(uヘッド)と,識別的前処理を提供する適応エキスパートとからなる,単純かつ効果的なフレームワークであるvermouthを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
我々は、拡散モデルを強力な表現学習者に変換するために、重み付けや複雑なデコーダを組み込む必要はないことを強調する。
本手法は,ゼロショットスケッチベース画像検索(ZS-SBIR),少数ショット分類,オープンボキャブラリセマンティックセグメンテーションタスクにおいて有効であることを示す。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
関連論文リスト
- Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models [39.127620891450526]
マルチモーダルデータ生成と濃密な視覚知覚の両方を扱うために,統一的で汎用的な拡散型フレームワークDiff-2-in-1を導入する。
また,従来のトレーニングセットの分布を反映したマルチモーダルデータを作成するために,デノナイジングネットワークを利用することにより,マルチモーダル生成による識別的視覚知覚をさらに強化する。
論文 参考訳(メタデータ) (2024-11-07T18:59:53Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition [43.01467525231004]
DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。
本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。
また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T21:20:43Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - InfoDiffusion: Representation Learning Using Information Maximizing
Diffusion Models [35.566528358691336]
InfoDiffusionは低次元潜伏変数を持つ拡散モデルを拡張するアルゴリズムである。
情報拡散は、観測された変数と隠れた変数の相互情報に規則化された学習目標に依存する。
インフォディフュージョンは、最先端の生成的およびコントラスト的手法と競合する非絡み合いおよび人間解釈可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2023-06-14T21:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。