論文の概要: SD4Match: Learning to Prompt Stable Diffusion Model for Semantic
Matching
- arxiv url: http://arxiv.org/abs/2310.17569v1
- Date: Thu, 26 Oct 2023 16:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:56:41.587148
- Title: SD4Match: Learning to Prompt Stable Diffusion Model for Semantic
Matching
- Title(参考訳): SD4Match: セマンティックマッチングのための安定拡散モデルの学習
- Authors: Xinghui Li, Jingyi Lu, Kai Han, Victor Prisacariu
- Abstract要約: 画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。
既存の研究では、安定拡散中のUNetの中間出力が、堅牢な画像特徴マップとして機能することを示唆している。
基礎的なプロンプトチューニング手法を用いることで、安定拡散の本質的なポテンシャルを生かし、従来の手法よりも精度が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 21.240221648936746
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we address the challenge of matching semantically similar
keypoints across image pairs. Existing research indicates that the intermediate
output of the UNet within the Stable Diffusion (SD) can serve as robust image
feature maps for such a matching task. We demonstrate that by employing a basic
prompt tuning technique, the inherent potential of Stable Diffusion can be
harnessed, resulting in a significant enhancement in accuracy over previous
approaches. We further introduce a novel conditional prompting module that
conditions the prompt on the local details of the input image pairs, leading to
a further improvement in performance. We designate our approach as SD4Match,
short for Stable Diffusion for Semantic Matching. Comprehensive evaluations of
SD4Match on the PF-Pascal, PF-Willow, and SPair-71k datasets show that it sets
new benchmarks in accuracy across all these datasets. Particularly, SD4Match
outperforms the previous state-of-the-art by a margin of 12 percentage points
on the challenging SPair-71k dataset.
- Abstract(参考訳): 本稿では,画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。
既存の研究によれば、安定拡散 (sd) 内の unet の中間出力は、そのようなマッチングタスクのためのロバストな画像特徴マップとして機能する。
我々は,基本的なプロンプトチューニング手法を用いることにより,安定拡散の固有ポテンシャルを生かして,従来の手法よりも精度が著しく向上することを示す。
さらに,入力画像ペアの局所的な詳細を条件とする条件付プロンプトモジュールを導入することにより,さらなる性能向上を実現する。
本手法は,セマンティックマッチングのための安定拡散の略であるSD4Matchと定義する。
PF-Pascal、PF-Willow、SPair-71kデータセットにおけるSD4Matchの総合的な評価は、これらのデータセット全体で新しいベンチマークを正確に設定していることを示している。
特にsd4matchは、挑戦的なspair-71kデータセットの12ポイントのマージンで以前の最先端を上回っている。
関連論文リスト
- Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Semi-Supervised Semantic Segmentation via Marginal Contextual
Information [14.72111236164531]
セマンティックセグメンテーションにおける疑似ラベルを強化する新しい信頼度向上手法を提案する。
S4MCと命名された本手法は,擬似ラベルの品質を維持しつつ,トレーニング中に使用するラベルなしデータの量を増加させる。
S4MCは、最先端の半教師あり学習手法より優れている。
論文 参考訳(メタデータ) (2023-08-26T15:02:00Z) - Emergent Correspondence from Image Diffusion [56.29904609646015]
我々は,画像拡散モデルにおいて,明確な監督なしに対応が現れることを示す。
画像の特徴として拡散ネットワーク(DIFT)からこの暗黙の知識を抽出する戦略を提案する。
DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付き手法と競合するオフ・ザ・シェルフの特徴の両方より優れている。
論文 参考訳(メタデータ) (2023-06-06T17:33:19Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。
下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。
すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文 参考訳(メタデータ) (2023-03-14T17:59:59Z) - Dense FixMatch: a simple semi-supervised learning method for pixel-wise
prediction tasks [68.36996813591425]
Dense FixMatchは,高密度かつ構造化された予測タスクのオンライン半教師付き学習のための簡易な手法である。
我々は、擬似ラベルにマッチング操作を追加することにより、画像分類を超えた半教師付き学習問題にFixMatchの適用を可能にする。
Dense FixMatchは、ラベル付きデータのみを使用して教師付き学習と比較すると、結果を著しく改善し、ラベル付きサンプルの1/4でそのパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2022-10-18T15:02:51Z) - MIXER: Multiattribute, Multiway Fusion of Uncertain Pairwise Affinities [45.00178262932004]
本稿では,不確実なペア親和性を直接処理できるマルチウェイ融合アルゴリズムを提案する。
最初のペア関係を必要とする既存の作業とは対照的に、我々のMIXERアルゴリズムはペア親和性によって提供される付加情報を活用することにより精度を向上する。
論文 参考訳(メタデータ) (2022-10-15T19:19:57Z) - Finding Point with Image: A Simple and Efficient Method for UAV
Self-Localization [21.187322738122113]
本稿では、画像を用いたFindering Point with Image(FPI)というエンドツーエンドの位置決めフレームワークを提案する。
FPIは、UAVビュー画像を介して、衛星ビュー画像中のUAVの対応する位置を直接識別することを目的としている。
本フレームワークの実用性を検証するため,UAVと衛星ビューからなるUL14というペアデータセットを構築した。
論文 参考訳(メタデータ) (2022-08-13T03:25:50Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。