論文の概要: SynCDR : Training Cross Domain Retrieval Models with Synthetic Data
- arxiv url: http://arxiv.org/abs/2401.00420v2
- Date: Tue, 19 Mar 2024 16:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 23:41:33.456192
- Title: SynCDR : Training Cross Domain Retrieval Models with Synthetic Data
- Title(参考訳): SynCDR : 合成データを用いたクロスドメイン検索モデルの訓練
- Authors: Samarth Mishra, Carlos D. Castillo, Hongcheng Wang, Kate Saenko, Venkatesh Saligrama,
- Abstract要約: クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。
我々は、これらの欠落したカテゴリの例を満たすために、ドメイン間で合成データを生成する方法を示す。
最高のSynCDRモデルは、先行技術よりも最大15%パフォーマンスが向上します。
- 参考スコア(独自算出の注目度): 69.26882668598587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cross-domain retrieval, a model is required to identify images from the same semantic category across two visual domains. For instance, given a sketch of an object, a model needs to retrieve a real image of it from an online store's catalog. A standard approach for such a problem is learning a feature space of images where Euclidean distances reflect similarity. Even without human annotations, which may be expensive to acquire, prior methods function reasonably well using unlabeled images for training. Our problem constraint takes this further to scenarios where the two domains do not necessarily share any common categories in training data. This can occur when the two domains in question come from different versions of some biometric sensor recording identities of different people. We posit a simple solution, which is to generate synthetic data to fill in these missing category examples across domains. This, we do via category preserving translation of images from one visual domain to another. We compare approaches specifically trained for this translation for a pair of domains, as well as those that can use large-scale pre-trained text-to-image diffusion models via prompts, and find that the latter can generate better replacement synthetic data, leading to more accurate cross-domain retrieval models. Our best SynCDR model can outperform prior art by up to 15\%. Code for our work is available at https://github.com/samarth4149/SynCDR .
- Abstract(参考訳): クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。
例えば、オブジェクトのスケッチが与えられた場合、オンラインストアのカタログから実際のイメージを取得する必要がある。
そのような問題に対する標準的なアプローチは、ユークリッド距離が類似性を反映する画像の特徴空間を学ぶことである。
取得に費用がかかる人間のアノテーションがなくても、事前の手法はトレーニングのためにラベルなしのイメージを使用して合理的に機能する。
私たちの問題制約は、この2つのドメインが必ずしもトレーニングデータに共通するカテゴリを共有していないシナリオにさらに対応します。
問題の2つのドメインが、異なる人の身元を記録する生体センサーの異なるバージョンから来ている場合、これは起こりうる。
我々は、これらの欠落したカテゴリの例を満たすために合成データを生成する単純な解を提案する。
これは、ある視覚領域から別の視覚領域への画像の変換を保存するカテゴリを通して行われる。
我々は,この2つのドメインに対して,この翻訳に特化して訓練されたアプローチと,プロンプトを介して大規模に事前訓練されたテキスト-画像拡散モデルを使用する手法を比較し,後者がより良い置換データを生成し,より正確なクロスドメイン検索モデルを実現することを見出した。
われわれの最高のSynCDRモデルは、先行技術よりも最大15倍パフォーマンスが良い。
私たちの作業のコードはhttps://github.com/samarth4149/SynCDR で公開されている。
関連論文リスト
- ZoDi: Zero-Shot Domain Adaptation with Diffusion-Based Image Transfer [13.956618446530559]
本稿では,ZoDiと呼ばれる拡散モデルに基づくゼロショット領域適応手法を提案する。
まず,原画像の領域を対象領域に転送することで,対象画像の合成にオフ・ザ・シェルフ拡散モデルを用いる。
次に、元の表現でソース画像と合成画像の両方を用いてモデルを訓練し、ドメイン・ロバスト表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T14:58:09Z) - Adapt Anything: Tailor Any Image Classifiers across Domains And
Categories Using Text-to-Image Diffusion Models [82.95591765009105]
我々は,現代テキスト・画像拡散モデルが,ドメインやカテゴリ間でタスク適応型画像分類器をカスタマイズできるかどうかを検討することを目的とする。
対象のテキストプロンプトから派生したカテゴリラベルを用いた画像合成には,1つのオフ・ザ・シェルフテキスト・ツー・イメージモデルのみを用いる。
論文 参考訳(メタデータ) (2023-10-25T11:58:14Z) - Domain-Scalable Unpaired Image Translation via Latent Space Anchoring [88.7642967393508]
Unpaired Image-to-image Translation (UNIT)は、2つの視覚領域間の画像をペアのトレーニングデータなしでマッピングすることを目的としている。
そこで本研究では、潜在空間アンカーと呼ばれる新しい領域スケーリング可能なUNIT手法を提案する。
本手法は, 軽量エンコーダと回帰器モデルを学習することにより, 異なる領域の画像を, 凍ったGANと同じ潜伏空間に固定する。
推論フェーズでは、異なるドメインの学習エンコーダとデコーダを任意に組み合わせて、微調整なしで任意の2つのドメイン間で画像を変換することができる。
論文 参考訳(メタデータ) (2023-06-26T17:50:02Z) - Dual-Domain Image Synthesis using Segmentation-Guided GAN [33.00724627120716]
2つの異なる領域の特徴を統合した画像合成のためのセグメンテーション誘導手法を提案する。
我々の二重領域モデルで合成された画像は、セマンティックマスク内の1つの領域に属し、残りの領域では別の領域に属します。
論文 参考訳(メタデータ) (2022-04-19T17:25:54Z) - PixMatch: Unsupervised Domain Adaptation via Pixelwise Consistency
Training [4.336877104987131]
教師なしドメイン適応はセマンティックセグメンテーションの有望なテクニックである。
対象領域整合性訓練の概念に基づく非監視領域適応のための新しいフレームワークを提案する。
私たちのアプローチはシンプルで、実装が簡単で、トレーニング時にメモリ効率が向上します。
論文 参考訳(メタデータ) (2021-05-17T19:36:28Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Learning High-Resolution Domain-Specific Representations with a GAN
Generator [5.8720142291102135]
本稿では,GANジェネレータが学習した表現を,軽量デコーダを用いてセマンティックセグメンテーションマップに簡単に投影できることを示す。
本稿では、教師なしドメイン固有の事前学習に使用できるGANジェネレータの表現を近似するLayerMatch方式を提案する。
また,LayerMatch-pretrained backboneの使用は,ImageNetの標準教師付き事前トレーニングよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2020-06-18T11:57:18Z) - Learning Texture Invariant Representation for Domain Adaptation of
Semantic Segmentation [19.617821473205694]
合成データで訓練されたモデルが実際のデータに一般化することは困難である。
我々はスタイル伝達アルゴリズムを用いて合成画像のテクスチャを多様性する。
我々は、ターゲットテクスチャを直接監視するために、自己学習でモデルを微調整する。
論文 参考訳(メタデータ) (2020-03-02T13:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。