論文の概要: Emergent Correspondence from Image Diffusion
- arxiv url: http://arxiv.org/abs/2306.03881v1
- Date: Tue, 6 Jun 2023 17:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 14:18:01.719085
- Title: Emergent Correspondence from Image Diffusion
- Title(参考訳): 画像拡散による創発的対応
- Authors: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath
Hariharan
- Abstract要約: 我々は,画像拡散モデルにおいて,明確な監督なしに対応が現れることを示す。
画像の特徴として拡散ネットワーク(DIFT)からこの暗黙の知識を抽出する戦略を提案する。
DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付き手法と競合するオフ・ザ・シェルフの特徴の両方より優れている。
- 参考スコア(独自算出の注目度): 59.05739633069394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding correspondences between images is a fundamental problem in computer
vision. In this paper, we show that correspondence emerges in image diffusion
models without any explicit supervision. We propose a simple strategy to
extract this implicit knowledge out of diffusion networks as image features,
namely DIffusion FeaTures (DIFT), and use them to establish correspondences
between real images. Without any additional fine-tuning or supervision on the
task-specific data or annotations, DIFT is able to outperform both
weakly-supervised methods and competitive off-the-shelf features in identifying
semantic, geometric, and temporal correspondences. Particularly for semantic
correspondence, DIFT from Stable Diffusion is able to outperform DINO and
OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k
benchmark. It even outperforms the state-of-the-art supervised methods on 9 out
of 18 categories while remaining on par for the overall performance. Project
page: https://diffusionfeatures.github.io
- Abstract(参考訳): 画像間の対応を見つけることはコンピュータビジョンの基本的な問題である。
本稿では,画像拡散モデルにおいて,明示的な監督なしに対応が現れることを示す。
画像の特徴として拡散ネットワーク(DIFT)からこの暗黙的知識を抽出し,実際の画像間の対応を確立するための簡単な手法を提案する。
タスク固有のデータやアノテーションに関する追加の微調整や監督がなければ、DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付きメソッドと競合するオフザシェルフ機能の両方より優れている。
特に意味対応において、安定拡散のDIFTは、挑戦的なSPair-71kベンチマークでそれぞれ19と14の精度でDINOとOpenCLIPを上回っている。
さらに18のカテゴリ中9の最先端の教師付きメソッドよりも優れていますが、全体的なパフォーマンスには同等です。
プロジェクトページ: https://diffusionfeatures.github.io
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Implicit and Explicit Language Guidance for Diffusion-based Visual Perception [42.71751651417168]
テキスト・ツー・イメージ拡散モデルでは、テクスチャが豊かで、異なるテキストプロンプトの下で合理的な構造を持つ高品質な画像を生成することができる。
拡散に基づく知覚のための暗黙的かつ明示的な言語指導フレームワークIEDPを提案する。
我々のIEDPは、セマンティックセグメンテーションと深さ推定を含む2つの典型的な知覚タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2024-04-11T09:39:58Z) - Unsupervised Semantic Correspondence Using Stable Diffusion [27.355330079806027]
我々は,この意味的知識を拡散モデル内で活用し,意味的対応を見いだせることを示す。
我々はこれらのモデルの迅速な埋め込みを最適化し、関心のある領域に最大限の注意を払う。
我々は、PF-Willow、CUB-200、SPair-71kデータセットにおいて、既存の弱い、または教師なしの手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T21:34:34Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence [88.00004819064672]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - TopicFM: Robust and Interpretable Feature Matching with Topic-assisted [8.314830611853168]
本稿では,効率,堅牢,解釈可能な画像マッチングアーキテクチャを提案する。
TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間で同じ空間構造をトピックに大まかに整理する。
提案手法は,計算量を削減するために,共可視領域でのみマッチングを行うことができる。
論文 参考訳(メタデータ) (2022-07-01T10:39:14Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。