論文の概要: SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching
- arxiv url: http://arxiv.org/abs/2310.17569v2
- Date: Tue, 26 Mar 2024 11:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 00:51:05.986027
- Title: SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching
- Title(参考訳): SD4Match: セマンティックマッチングのための安定拡散モデルの学習
- Authors: Xinghui Li, Jingyi Lu, Kai Han, Victor Prisacariu,
- Abstract要約: 画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。
既存の研究では、安定拡散中のUNetの中間出力が、堅牢な画像特徴マップとして機能することを示唆している。
基礎的なプロンプトチューニング手法を用いることで、安定拡散の本質的なポテンシャルを生かし、従来の手法よりも精度が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 19.443129001190474
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we address the challenge of matching semantically similar keypoints across image pairs. Existing research indicates that the intermediate output of the UNet within the Stable Diffusion (SD) can serve as robust image feature maps for such a matching task. We demonstrate that by employing a basic prompt tuning technique, the inherent potential of Stable Diffusion can be harnessed, resulting in a significant enhancement in accuracy over previous approaches. We further introduce a novel conditional prompting module that conditions the prompt on the local details of the input image pairs, leading to a further improvement in performance. We designate our approach as SD4Match, short for Stable Diffusion for Semantic Matching. Comprehensive evaluations of SD4Match on the PF-Pascal, PF-Willow, and SPair-71k datasets show that it sets new benchmarks in accuracy across all these datasets. Particularly, SD4Match outperforms the previous state-of-the-art by a margin of 12 percentage points on the challenging SPair-71k dataset.
- Abstract(参考訳): 本稿では,画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。
既存の研究では、安定拡散(SD)内のUNetの中間出力が、そのようなマッチングタスクのための堅牢な画像特徴マップとして機能できることが示されている。
基礎的なプロンプトチューニング手法を用いることで、安定拡散の本質的なポテンシャルを生かし、従来の手法よりも精度が大幅に向上することを示した。
さらに、入力画像ペアの局所的な詳細にプロンプトを条件付ける新しい条件付きプロンプトモジュールを導入し、パフォーマンスをさらに向上させる。
本手法は,セマンティックマッチングのための安定拡散の略であるSD4Matchと定義する。
PF-Pascal、PF-Willow、SPair-71kデータセットにおけるSD4Matchの総合的な評価は、これらのデータセット全体で新しいベンチマークを正確に設定していることを示している。
特にSD4Matchは、挑戦的なSPair-71kデータセットの12パーセントのマージンで、従来の最先端技術よりも優れています。
関連論文リスト
- DMESA: Densely Matching Everything by Segmenting Anything [16.16319526547664]
本稿では,新しい特徴マッチング手法としてMESAとDMESAを提案する。
MESAはSAMの高度な画像理解に基づいて、点マッチングの前に暗黙のセマンティック領域マッチングを確立する。
繰り返し計算が少ないため、DMESAはMESAと比較して約5倍の速度向上を示す。
論文 参考訳(メタデータ) (2024-08-01T04:39:36Z) - A Two-Stage Adverse Weather Semantic Segmentation Method for WeatherProof Challenge CVPR 2024 Workshop UG2+ [10.069192320623031]
We propose a two-stage Deep Learning framework for the WeatherProof dataset Challenge。
この課題では,mIoU(Mean Intersection over Union)測定値で0.43の競争スコアを達成し,上位4位を確保した。
論文 参考訳(メタデータ) (2024-06-08T16:22:26Z) - Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching [30.272791354494373]
モデル断面変形に対するアフィン系局所的注意を導入する。
また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
論文 参考訳(メタデータ) (2024-05-22T17:57:37Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Emergent Correspondence from Image Diffusion [56.29904609646015]
我々は,画像拡散モデルにおいて,明確な監督なしに対応が現れることを示す。
画像の特徴として拡散ネットワーク(DIFT)からこの暗黙の知識を抽出する戦略を提案する。
DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付き手法と競合するオフ・ザ・シェルフの特徴の両方より優れている。
論文 参考訳(メタデータ) (2023-06-06T17:33:19Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。
下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。
すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文 参考訳(メタデータ) (2023-03-14T17:59:59Z) - Dense FixMatch: a simple semi-supervised learning method for pixel-wise
prediction tasks [68.36996813591425]
Dense FixMatchは,高密度かつ構造化された予測タスクのオンライン半教師付き学習のための簡易な手法である。
我々は、擬似ラベルにマッチング操作を追加することにより、画像分類を超えた半教師付き学習問題にFixMatchの適用を可能にする。
Dense FixMatchは、ラベル付きデータのみを使用して教師付き学習と比較すると、結果を著しく改善し、ラベル付きサンプルの1/4でそのパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2022-10-18T15:02:51Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。