論文の概要: Diffusion Hyperfeatures: Searching Through Time and Space for Semantic
Correspondence
- arxiv url: http://arxiv.org/abs/2305.14334v1
- Date: Tue, 23 May 2023 17:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:26:24.767674
- Title: Diffusion Hyperfeatures: Searching Through Time and Space for Semantic
Correspondence
- Title(参考訳): diffusion hyperfeatures: 意味対応のための時間と空間の探索
- Authors: Grace Luo, Lisa Dunlap, Dong Huk Park, Aleksander Holynski, Trevor
Darrell
- Abstract要約: Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 126.08752458388206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have been shown to be capable of generating high-quality
images, suggesting that they could contain meaningful internal representations.
Unfortunately, the feature maps that encode a diffusion model's internal
information are spread not only over layers of the network, but also over
diffusion timesteps, making it challenging to extract useful descriptors. We
propose Diffusion Hyperfeatures, a framework for consolidating multi-scale and
multi-timestep feature maps into per-pixel feature descriptors that can be used
for downstream tasks. These descriptors can be extracted for both synthetic and
real images using the generation and inversion processes. We evaluate the
utility of our Diffusion Hyperfeatures on the task of semantic keypoint
correspondence: our method achieves superior performance on the SPair-71k real
image benchmark. We also demonstrate that our method is flexible and
transferable: our feature aggregation network trained on the inversion features
of real image pairs can be used on the generation features of synthetic image
pairs with unseen objects and compositions. Our code is available at
\url{https://diffusion-hyperfeatures.github.io}.
- Abstract(参考訳): 拡散モデルは高品質な画像を生成することができ、意味のある内部表現を含むことができることが示されている。
残念ながら、拡散モデルの内部情報を符号化する特徴マップは、ネットワークの層だけでなく、拡散タイムステップにも広がっており、有用な記述子を抽出することは困難である。
本研究では,マルチスケールとマルチタイムステップの機能マップを,サブストリームタスクに使用可能なピクセル単位の機能記述子に統合するフレームワークであるdiffence hyperfeaturesを提案する。
これらのディスクリプタは、生成および反転プロセスを使用して合成および実画像の両方に対して抽出することができる。
本手法は,spair-71k実画像ベンチマークにおいて優れた性能を実現する。
実画像ペアの反転特性を訓練した特徴集約ネットワークは,未認識のオブジェクトと構成を持つ合成画像ペアの生成機能に使用できる。
我々のコードは \url{https://diffusion-hyperfeatures.github.io} で入手できる。
関連論文リスト
- Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Emergent Correspondence from Image Diffusion [56.29904609646015]
我々は,画像拡散モデルにおいて,明確な監督なしに対応が現れることを示す。
画像の特徴として拡散ネットワーク(DIFT)からこの暗黙の知識を抽出する戦略を提案する。
DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付き手法と競合するオフ・ザ・シェルフの特徴の両方より優れている。
論文 参考訳(メタデータ) (2023-06-06T17:33:19Z) - DePF: A Novel Fusion Approach based on Decomposition Pooling for
Infrared and Visible Images [7.11574718614606]
分解プール法(デプール法)に基づく新しい融合ネットワークを提案し,これをDePFと呼ぶ。
切り離しに基づくエンコーダは、ソース画像のマルチスケール画像と詳細特徴を同時に抽出するように設計されている。
実験により,提案手法は最先端技術よりも優れた核融合性能を示すことが示された。
論文 参考訳(メタデータ) (2023-05-27T05:47:14Z) - Unsupervised Semantic Correspondence Using Stable Diffusion [27.355330079806027]
我々は,この意味的知識を拡散モデル内で活用し,意味的対応を見いだせることを示す。
我々はこれらのモデルの迅速な埋め込みを最適化し、関心のある領域に最大限の注意を払う。
我々は、PF-Willow、CUB-200、SPair-71kデータセットにおいて、既存の弱い、または教師なしの手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T21:34:34Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。