論文の概要: A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence
- arxiv url: http://arxiv.org/abs/2305.15347v2
- Date: Tue, 28 Nov 2023 17:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 16:09:01.150946
- Title: A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence
- Title(参考訳): 2つの特徴の物語:ゼロショットセマンティック対応のための安定拡散補完DINO
- Authors: Junyi Zhang, Charles Herrmann, Junhwa Hur, Luisa Polania Cabrera,
Varun Jampani, Deqing Sun, Ming-Hsuan Yang
- Abstract要約: 我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
- 参考スコア(独自算出の注目度): 83.90531416914884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have made significant advances in generating
and editing high-quality images. As a result, numerous approaches have explored
the ability of diffusion model features to understand and process single images
for downstream tasks, e.g., classification, semantic segmentation, and
stylization. However, significantly less is known about what these features
reveal across multiple, different images and objects. In this work, we exploit
Stable Diffusion (SD) features for semantic and dense correspondence and
discover that with simple post-processing, SD features can perform
quantitatively similar to SOTA representations. Interestingly, the qualitative
analysis reveals that SD features have very different properties compared to
existing representation learning features, such as the recently released
DINOv2: while DINOv2 provides sparse but accurate matches, SD features provide
high-quality spatial information but sometimes inaccurate semantic matches. We
demonstrate that a simple fusion of these two features works surprisingly well,
and a zero-shot evaluation using nearest neighbors on these fused features
provides a significant performance gain over state-of-the-art methods on
benchmark datasets, e.g., SPair-71k, PF-Pascal, and TSS. We also show that
these correspondences can enable interesting applications such as instance
swapping in two images.
- Abstract(参考訳): テキストと画像の拡散モデルは高品質な画像の生成と編集に大きな進歩をもたらした。
その結果,分類,意味セグメンテーション,スタイライゼーションなど,下流タスクの単一画像を理解し,処理する拡散モデル機能について,多くのアプローチが検討されている。
しかし、これらの機能が複数の異なる画像やオブジェクトで明らかにするものについて、あまり知られていない。
本研究では,安定拡散(sd)特徴を意味的かつ密接な対応に活用し,sd特徴がsota表現と定量的に類似していることを発見する。
興味深いことに、定性的な分析により、SD機能は、最近リリースされたDINOv2のような既存の表現学習機能とは全く異なる性質を持つことが明らかになった。
これら2つの機能の単純な融合は驚くほどうまく動作し、これらの融合した特徴に対して近接した隣人によるゼロショット評価は、ベンチマークデータセット(SPair-71k、PF-Pascal、TSS)の最先端メソッドよりも大きなパフォーマンス向上をもたらす。
また,これらの対応により,2つのイメージをスワップするなど,興味深い応用が可能となることを示す。
関連論文リスト
- Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence [12.602194710071116]
本稿では,基礎視覚モデルの特徴から意味的手がかりを抽出し,局所的特徴マッチングを強化する手法を提案する。
カメラのローカライゼーションにおける性能は平均29%向上し,既存の6つのディスクリプタの適応版を提示する。
論文 参考訳(メタデータ) (2024-10-12T13:45:26Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence [88.00004819064672]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。