Fugu-MT 論文翻訳(概要): SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching

論文の概要: SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching

arxiv url: http://arxiv.org/abs/2310.17569v1
Date: Thu, 26 Oct 2023 16:58:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 18:56:41.587148
Title: SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching
Title（参考訳）: SD4Match: セマンティックマッチングのための安定拡散モデルの学習
Authors: Xinghui Li, Jingyi Lu, Kai Han, Victor Prisacariu
Abstract要約: 画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。既存の研究では、安定拡散中のUNetの中間出力が、堅牢な画像特徴マップとして機能することを示唆している。基礎的なプロンプトチューニング手法を用いることで、安定拡散の本質的なポテンシャルを生かし、従来の手法よりも精度が大幅に向上することを示した。
参考スコア（独自算出の注目度）: 21.240221648936746
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we address the challenge of matching semantically similar keypoints across image pairs. Existing research indicates that the intermediate output of the UNet within the Stable Diffusion (SD) can serve as robust image feature maps for such a matching task. We demonstrate that by employing a basic prompt tuning technique, the inherent potential of Stable Diffusion can be harnessed, resulting in a significant enhancement in accuracy over previous approaches. We further introduce a novel conditional prompting module that conditions the prompt on the local details of the input image pairs, leading to a further improvement in performance. We designate our approach as SD4Match, short for Stable Diffusion for Semantic Matching. Comprehensive evaluations of SD4Match on the PF-Pascal, PF-Willow, and SPair-71k datasets show that it sets new benchmarks in accuracy across all these datasets. Particularly, SD4Match outperforms the previous state-of-the-art by a margin of 12 percentage points on the challenging SPair-71k dataset.
Abstract（参考訳）: 本稿では,画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。既存の研究によれば、安定拡散 (sd) 内の unet の中間出力は、そのようなマッチングタスクのためのロバストな画像特徴マップとして機能する。我々は,基本的なプロンプトチューニング手法を用いることにより,安定拡散の固有ポテンシャルを生かして,従来の手法よりも精度が著しく向上することを示す。さらに,入力画像ペアの局所的な詳細を条件とする条件付プロンプトモジュールを導入することにより,さらなる性能向上を実現する。本手法は,セマンティックマッチングのための安定拡散の略であるSD4Matchと定義する。 PF-Pascal、PF-Willow、SPair-71kデータセットにおけるSD4Matchの総合的な評価は、これらのデータセット全体で新しいベンチマークを正確に設定していることを示している。特にsd4matchは、挑戦的なspair-71kデータセットの12ポイントのマージンで以前の最先端を上回っている。

関連論文リスト

S4M: S4 for multivariate time series forecasting with Missing values [30.547886613423994]
時系列データは、幅広い現実世界のアプリケーションにおいて重要な役割を果たす。従来の2段階のアプローチは、最初は欠落した値を入力し、次に予測するが、エラーの蓄積が難しくなる。 S4Mは、欠落したデータ処理を構造化状態空間シーケンスモデルアーキテクチャにシームレスに統合する、エンドツーエンドの時系列予測フレームワークである。
論文参考訳（メタデータ） (2025-03-02T13:59:59Z)
Optimality and Adaptivity of Deep Neural Features for Instrumental Variable Regression [57.40108516085593]
ディープ・フィーチャー・インスツルメンタル・変数(DFIV)回帰(Deep Feature instrumental variable)は、ディープ・ニューラルネットワークによって学習されたデータ適応的特徴を用いたIV回帰に対する非パラメトリックなアプローチである。 DFIVアルゴリズムは,目的構造関数がベソフ空間にある場合,最小最適学習率を実現する。
論文参考訳（メタデータ） (2025-01-09T01:22:22Z)
DMESA: Densely Matching Everything by Segmenting Anything [16.16319526547664]
本稿では,新しい特徴マッチング手法としてMESAとDMESAを提案する。 MESAはSAMの高度な画像理解に基づいて、点マッチングの前に暗黙のセマンティック領域マッチングを確立する。繰り返し計算が少ないため、DMESAはMESAと比較して約5倍の速度向上を示す。
論文参考訳（メタデータ） (2024-08-01T04:39:36Z)
A Two-Stage Adverse Weather Semantic Segmentation Method for WeatherProof Challenge CVPR 2024 Workshop UG2+ [10.069192320623031]
We propose a two-stage Deep Learning framework for the WeatherProof dataset Challenge。この課題では,mIoU(Mean Intersection over Union)測定値で0.43の競争スコアを達成し,上位4位を確保した。
論文参考訳（メタデータ） (2024-06-08T16:22:26Z)
Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching [30.272791354494373]
モデル断面変形に対するアフィン系局所的注意を導入する。また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
論文参考訳（メタデータ） (2024-05-22T17:57:37Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)
Emergent Correspondence from Image Diffusion [56.29904609646015]
我々は,画像拡散モデルにおいて,明確な監督なしに対応が現れることを示す。画像の特徴として拡散ネットワーク(DIFT)からこの暗黙の知識を抽出する戦略を提案する。 DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付き手法と競合するオフ・ザ・シェルフの特徴の両方より優れている。
論文参考訳（メタデータ） (2023-06-06T17:33:19Z)
A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文参考訳（メタデータ） (2023-05-24T16:59:26Z)
Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文参考訳（メタデータ） (2023-03-14T17:59:59Z)
Dense FixMatch: a simple semi-supervised learning method for pixel-wise prediction tasks [68.36996813591425]
Dense FixMatchは,高密度かつ構造化された予測タスクのオンライン半教師付き学習のための簡易な手法である。我々は、擬似ラベルにマッチング操作を追加することにより、画像分類を超えた半教師付き学習問題にFixMatchの適用を可能にする。 Dense FixMatchは、ラベル付きデータのみを使用して教師付き学習と比較すると、結果を著しく改善し、ラベル付きサンプルの1/4でそのパフォーマンスに近づいた。
論文参考訳（メタデータ） (2022-10-18T15:02:51Z)
Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。 IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文参考訳（メタデータ） (2021-03-02T08:20:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。