論文の概要: Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence
- arxiv url: http://arxiv.org/abs/2305.14334v2
- Date: Mon, 1 Apr 2024 19:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:41:51.166392
- Title: Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence
- Title(参考訳): 拡散ハイパーフィーチャー:意味的対応のための時間と空間を探索する
- Authors: Grace Luo, Lisa Dunlap, Dong Huk Park, Aleksander Holynski, Trevor Darrell,
- Abstract要約: Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 88.00004819064672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have been shown to be capable of generating high-quality images, suggesting that they could contain meaningful internal representations. Unfortunately, the feature maps that encode a diffusion model's internal information are spread not only over layers of the network, but also over diffusion timesteps, making it challenging to extract useful descriptors. We propose Diffusion Hyperfeatures, a framework for consolidating multi-scale and multi-timestep feature maps into per-pixel feature descriptors that can be used for downstream tasks. These descriptors can be extracted for both synthetic and real images using the generation and inversion processes. We evaluate the utility of our Diffusion Hyperfeatures on the task of semantic keypoint correspondence: our method achieves superior performance on the SPair-71k real image benchmark. We also demonstrate that our method is flexible and transferable: our feature aggregation network trained on the inversion features of real image pairs can be used on the generation features of synthetic image pairs with unseen objects and compositions. Our code is available at https://diffusion-hyperfeatures.github.io.
- Abstract(参考訳): 拡散モデルは高品質な画像を生成することができることが示されており、それらが意味のある内部表現を含むことを示唆している。
残念ながら、拡散モデルの内部情報を符号化する特徴マップは、ネットワークの層だけでなく、拡散タイムステップにも広がっており、有用な記述子を抽出することは困難である。
本稿では,Diffusion Hyperfeaturesを提案する。Diffusion Hyperfeaturesは,マルチスケールおよびマルチタイムステップの機能マップを,下流タスクに使用できるピクセル単位の機能記述子に集約するフレームワークである。
これらの記述子は、生成過程と反転過程を用いて、合成画像と実画像の両方に対して抽出することができる。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を発揮する。
実画像対の反転特徴を学習した特徴集約ネットワークは、未知の物体や合成物を含む合成画像対の生成特徴に利用できる。
私たちのコードはhttps://diffusion-hyperfeatures.github.ioで公開されています。
関連論文リスト
- Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Emergent Correspondence from Image Diffusion [56.29904609646015]
我々は,画像拡散モデルにおいて,明確な監督なしに対応が現れることを示す。
画像の特徴として拡散ネットワーク(DIFT)からこの暗黙の知識を抽出する戦略を提案する。
DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付き手法と競合するオフ・ザ・シェルフの特徴の両方より優れている。
論文 参考訳(メタデータ) (2023-06-06T17:33:19Z) - DePF: A Novel Fusion Approach based on Decomposition Pooling for
Infrared and Visible Images [7.11574718614606]
分解プール法(デプール法)に基づく新しい融合ネットワークを提案し,これをDePFと呼ぶ。
切り離しに基づくエンコーダは、ソース画像のマルチスケール画像と詳細特徴を同時に抽出するように設計されている。
実験により,提案手法は最先端技術よりも優れた核融合性能を示すことが示された。
論文 参考訳(メタデータ) (2023-05-27T05:47:14Z) - Unsupervised Semantic Correspondence Using Stable Diffusion [27.355330079806027]
我々は,この意味的知識を拡散モデル内で活用し,意味的対応を見いだせることを示す。
我々はこれらのモデルの迅速な埋め込みを最適化し、関心のある領域に最大限の注意を払う。
我々は、PF-Willow、CUB-200、SPair-71kデータセットにおいて、既存の弱い、または教師なしの手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T21:34:34Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。