論文の概要: SD4Match: Learning to Prompt Stable Diffusion Model for Semantic
Matching
- arxiv url: http://arxiv.org/abs/2310.17569v1
- Date: Thu, 26 Oct 2023 16:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:56:41.587148
- Title: SD4Match: Learning to Prompt Stable Diffusion Model for Semantic
Matching
- Title(参考訳): SD4Match: セマンティックマッチングのための安定拡散モデルの学習
- Authors: Xinghui Li, Jingyi Lu, Kai Han, Victor Prisacariu
- Abstract要約: 画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。
既存の研究では、安定拡散中のUNetの中間出力が、堅牢な画像特徴マップとして機能することを示唆している。
基礎的なプロンプトチューニング手法を用いることで、安定拡散の本質的なポテンシャルを生かし、従来の手法よりも精度が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 21.240221648936746
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we address the challenge of matching semantically similar
keypoints across image pairs. Existing research indicates that the intermediate
output of the UNet within the Stable Diffusion (SD) can serve as robust image
feature maps for such a matching task. We demonstrate that by employing a basic
prompt tuning technique, the inherent potential of Stable Diffusion can be
harnessed, resulting in a significant enhancement in accuracy over previous
approaches. We further introduce a novel conditional prompting module that
conditions the prompt on the local details of the input image pairs, leading to
a further improvement in performance. We designate our approach as SD4Match,
short for Stable Diffusion for Semantic Matching. Comprehensive evaluations of
SD4Match on the PF-Pascal, PF-Willow, and SPair-71k datasets show that it sets
new benchmarks in accuracy across all these datasets. Particularly, SD4Match
outperforms the previous state-of-the-art by a margin of 12 percentage points
on the challenging SPair-71k dataset.
- Abstract(参考訳): 本稿では,画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。
既存の研究によれば、安定拡散 (sd) 内の unet の中間出力は、そのようなマッチングタスクのためのロバストな画像特徴マップとして機能する。
我々は,基本的なプロンプトチューニング手法を用いることにより,安定拡散の固有ポテンシャルを生かして,従来の手法よりも精度が著しく向上することを示す。
さらに,入力画像ペアの局所的な詳細を条件とする条件付プロンプトモジュールを導入することにより,さらなる性能向上を実現する。
本手法は,セマンティックマッチングのための安定拡散の略であるSD4Matchと定義する。
PF-Pascal、PF-Willow、SPair-71kデータセットにおけるSD4Matchの総合的な評価は、これらのデータセット全体で新しいベンチマークを正確に設定していることを示している。
特にsd4matchは、挑戦的なspair-71kデータセットの12ポイントのマージンで以前の最先端を上回っている。
関連論文リスト
- Optimality and Adaptivity of Deep Neural Features for Instrumental Variable Regression [57.40108516085593]
ディープ・フィーチャー・インスツルメンタル・変数(DFIV)回帰(Deep Feature instrumental variable)は、ディープ・ニューラルネットワークによって学習されたデータ適応的特徴を用いたIV回帰に対する非パラメトリックなアプローチである。
DFIVアルゴリズムは,目的構造関数がベソフ空間にある場合,最小最適学習率を実現する。
論文 参考訳(メタデータ) (2025-01-09T01:22:22Z) - DMESA: Densely Matching Everything by Segmenting Anything [16.16319526547664]
本稿では,新しい特徴マッチング手法としてMESAとDMESAを提案する。
MESAはSAMの高度な画像理解に基づいて、点マッチングの前に暗黙のセマンティック領域マッチングを確立する。
繰り返し計算が少ないため、DMESAはMESAと比較して約5倍の速度向上を示す。
論文 参考訳(メタデータ) (2024-08-01T04:39:36Z) - A Two-Stage Adverse Weather Semantic Segmentation Method for WeatherProof Challenge CVPR 2024 Workshop UG2+ [10.069192320623031]
We propose a two-stage Deep Learning framework for the WeatherProof dataset Challenge。
この課題では,mIoU(Mean Intersection over Union)測定値で0.43の競争スコアを達成し,上位4位を確保した。
論文 参考訳(メタデータ) (2024-06-08T16:22:26Z) - Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching [30.272791354494373]
モデル断面変形に対するアフィン系局所的注意を導入する。
また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
論文 参考訳(メタデータ) (2024-05-22T17:57:37Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Emergent Correspondence from Image Diffusion [56.29904609646015]
我々は,画像拡散モデルにおいて,明確な監督なしに対応が現れることを示す。
画像の特徴として拡散ネットワーク(DIFT)からこの暗黙の知識を抽出する戦略を提案する。
DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付き手法と競合するオフ・ザ・シェルフの特徴の両方より優れている。
論文 参考訳(メタデータ) (2023-06-06T17:33:19Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - Dense FixMatch: a simple semi-supervised learning method for pixel-wise
prediction tasks [68.36996813591425]
Dense FixMatchは,高密度かつ構造化された予測タスクのオンライン半教師付き学習のための簡易な手法である。
我々は、擬似ラベルにマッチング操作を追加することにより、画像分類を超えた半教師付き学習問題にFixMatchの適用を可能にする。
Dense FixMatchは、ラベル付きデータのみを使用して教師付き学習と比較すると、結果を著しく改善し、ラベル付きサンプルの1/4でそのパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2022-10-18T15:02:51Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。