論文の概要: A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence
- arxiv url: http://arxiv.org/abs/2305.15347v2
- Date: Tue, 28 Nov 2023 17:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 16:09:01.150946
- Title: A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence
- Title(参考訳): 2つの特徴の物語:ゼロショットセマンティック対応のための安定拡散補完DINO
- Authors: Junyi Zhang, Charles Herrmann, Junhwa Hur, Luisa Polania Cabrera,
Varun Jampani, Deqing Sun, Ming-Hsuan Yang
- Abstract要約: 我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
- 参考スコア(独自算出の注目度): 83.90531416914884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have made significant advances in generating
and editing high-quality images. As a result, numerous approaches have explored
the ability of diffusion model features to understand and process single images
for downstream tasks, e.g., classification, semantic segmentation, and
stylization. However, significantly less is known about what these features
reveal across multiple, different images and objects. In this work, we exploit
Stable Diffusion (SD) features for semantic and dense correspondence and
discover that with simple post-processing, SD features can perform
quantitatively similar to SOTA representations. Interestingly, the qualitative
analysis reveals that SD features have very different properties compared to
existing representation learning features, such as the recently released
DINOv2: while DINOv2 provides sparse but accurate matches, SD features provide
high-quality spatial information but sometimes inaccurate semantic matches. We
demonstrate that a simple fusion of these two features works surprisingly well,
and a zero-shot evaluation using nearest neighbors on these fused features
provides a significant performance gain over state-of-the-art methods on
benchmark datasets, e.g., SPair-71k, PF-Pascal, and TSS. We also show that
these correspondences can enable interesting applications such as instance
swapping in two images.
- Abstract(参考訳): テキストと画像の拡散モデルは高品質な画像の生成と編集に大きな進歩をもたらした。
その結果,分類,意味セグメンテーション,スタイライゼーションなど,下流タスクの単一画像を理解し,処理する拡散モデル機能について,多くのアプローチが検討されている。
しかし、これらの機能が複数の異なる画像やオブジェクトで明らかにするものについて、あまり知られていない。
本研究では,安定拡散(sd)特徴を意味的かつ密接な対応に活用し,sd特徴がsota表現と定量的に類似していることを発見する。
興味深いことに、定性的な分析により、SD機能は、最近リリースされたDINOv2のような既存の表現学習機能とは全く異なる性質を持つことが明らかになった。
これら2つの機能の単純な融合は驚くほどうまく動作し、これらの融合した特徴に対して近接した隣人によるゼロショット評価は、ベンチマークデータセット(SPair-71k、PF-Pascal、TSS)の最先端メソッドよりも大きなパフォーマンス向上をもたらす。
また,これらの対応により,2つのイメージをスワップするなど,興味深い応用が可能となることを示す。
関連論文リスト
- Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - What Does Stable Diffusion Know about the 3D Scene? [92.36449676571237]
本稿では,市販拡散モデルの特徴が3Dシーンの物理的「プロパティ」を符号化するかどうかを評価するプロトコルを提案する。
このプロトコルは、シーン幾何学、シーン素材、サポート関係、照明、ビュー依存度をカバーしているプロパティに適用する。
安定拡散の特徴は, シーン幾何学, サポート関係, 影, 奥行きなど, 様々な特性の識別学習に有効であるが, 閉塞や物質に対する性能は低い。
論文 参考訳(メタデータ) (2023-10-10T17:59:28Z) - Emergent Correspondence from Image Diffusion [56.29904609646015]
我々は,画像拡散モデルにおいて,明確な監督なしに対応が現れることを示す。
画像の特徴として拡散ネットワーク(DIFT)からこの暗黙の知識を抽出する戦略を提案する。
DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付き手法と競合するオフ・ザ・シェルフの特徴の両方より優れている。
論文 参考訳(メタデータ) (2023-06-06T17:33:19Z) - Diffusion Hyperfeatures: Searching Through Time and Space for Semantic
Correspondence [126.08752458388206]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - An Attention-Based Deep Learning Model for Multiple Pedestrian
Attributes Recognition [4.6898263272139795]
本稿では,監視映像における歩行者の自動特徴付け問題に対する新しい解決策を提供する。
本稿では,より包括的な特徴表現を抽出するために,要素ワイド乗算層を用いたマルチタスクディープモデルを提案する。
実験は,2つのよく知られたデータセット (RAP と PETA) を用いて実施し,提案手法の最先端性に着目した。
論文 参考訳(メタデータ) (2020-04-02T16:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。