論文の概要: A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence
- arxiv url: http://arxiv.org/abs/2305.15347v2
- Date: Tue, 28 Nov 2023 17:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-30 16:09:01.150946
- Title: A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence
- Title(参考訳): 2つの特徴の物語:ゼロショットセマンティック対応のための安定拡散補完DINO
- Authors: Junyi Zhang, Charles Herrmann, Junhwa Hur, Luisa Polania Cabrera,
Varun Jampani, Deqing Sun, Ming-Hsuan Yang
- Abstract要約: 我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
- 参考スコア(独自算出の注目度): 83.90531416914884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have made significant advances in generating
and editing high-quality images. As a result, numerous approaches have explored
the ability of diffusion model features to understand and process single images
for downstream tasks, e.g., classification, semantic segmentation, and
stylization. However, significantly less is known about what these features
reveal across multiple, different images and objects. In this work, we exploit
Stable Diffusion (SD) features for semantic and dense correspondence and
discover that with simple post-processing, SD features can perform
quantitatively similar to SOTA representations. Interestingly, the qualitative
analysis reveals that SD features have very different properties compared to
existing representation learning features, such as the recently released
DINOv2: while DINOv2 provides sparse but accurate matches, SD features provide
high-quality spatial information but sometimes inaccurate semantic matches. We
demonstrate that a simple fusion of these two features works surprisingly well,
and a zero-shot evaluation using nearest neighbors on these fused features
provides a significant performance gain over state-of-the-art methods on
benchmark datasets, e.g., SPair-71k, PF-Pascal, and TSS. We also show that
these correspondences can enable interesting applications such as instance
swapping in two images.
- Abstract(参考訳): テキストと画像の拡散モデルは高品質な画像の生成と編集に大きな進歩をもたらした。
その結果,分類,意味セグメンテーション,スタイライゼーションなど,下流タスクの単一画像を理解し,処理する拡散モデル機能について,多くのアプローチが検討されている。
しかし、これらの機能が複数の異なる画像やオブジェクトで明らかにするものについて、あまり知られていない。
本研究では,安定拡散(sd)特徴を意味的かつ密接な対応に活用し,sd特徴がsota表現と定量的に類似していることを発見する。
興味深いことに、定性的な分析により、SD機能は、最近リリースされたDINOv2のような既存の表現学習機能とは全く異なる性質を持つことが明らかになった。
これら2つの機能の単純な融合は驚くほどうまく動作し、これらの融合した特徴に対して近接した隣人によるゼロショット評価は、ベンチマークデータセット(SPair-71k、PF-Pascal、TSS)の最先端メソッドよりも大きなパフォーマンス向上をもたらす。
また,これらの対応により,2つのイメージをスワップするなど,興味深い応用が可能となることを示す。
関連論文リスト
- Cross Spatial Temporal Fusion Attention for Remote Sensing Object Detection via Image Feature Matching [15.57849268814515]
参照画像とクエリ画像の両方で独立に検出されたスケール不変キーポイントを統合することで特徴表現を強化する機構を提案する。
まず、複数の画像領域からの情報を同時に活用する対応マップを作成し、次に、類似性マッチングプロセスを分類タスクとして再構成することで、特徴マッチングを改善する。
改良された特徴マッチングの実用性を示すために,HRSC2016およびDOTAベンチマークデータセットを用いてオブジェクト検出タスクのCSTFを評価する。
論文 参考訳(メタデータ) (2025-07-25T09:52:06Z) - FPDANet: A Multi-Section Classification Model for Intelligent Screening of Fetal Ultrasound [2.255017160735307]
本稿では,これらの課題に対処するため,二国間マルチスケール情報融合ネットワークFPDANetを提案する。
具体的には,特徴の類似性を利用した位置注意機構(DAN)モジュールを設計する。
さらに,FPAN情報融合モジュールを設計し,コンテキストおよびグローバルな特徴の依存関係を抽出する。
論文 参考訳(メタデータ) (2025-06-06T13:00:17Z) - Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence [12.602194710071116]
本稿では,基礎視覚モデルの特徴から意味的手がかりを抽出し,局所的特徴マッチングを強化する手法を提案する。
カメラのローカライゼーションにおける性能は平均29%向上し,既存の6つのディスクリプタの適応版を提示する。
論文 参考訳(メタデータ) (2024-10-12T13:45:26Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence [88.00004819064672]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。