論文の概要: Unifying Specialist Image Embedding into Universal Image Embedding
- arxiv url: http://arxiv.org/abs/2003.03701v1
- Date: Sun, 8 Mar 2020 02:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:26:30.188315
- Title: Unifying Specialist Image Embedding into Universal Image Embedding
- Title(参考訳): ユニバーサルなイメージ埋め込みに特別なイメージを埋め込む
- Authors: Yang Feng, Futang Peng, Xu Zhang, Wei Zhu, Shanfeng Zhang, Howard
Zhou, Zhen Li, Tom Duerig, Shih-Fu Chang, Jiebo Luo
- Abstract要約: 画像の様々な領域に適用可能な普遍的な深層埋め込みモデルを持つことが望ましい。
本稿では,複数の専門家の知識を普遍的な埋め込みに融合させてこの問題を解決することを提案する。
- 参考スコア(独自算出の注目度): 84.0039266370785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep image embedding provides a way to measure the semantic similarity of two
images. It plays a central role in many applications such as image search, face
verification, and zero-shot learning. It is desirable to have a universal deep
embedding model applicable to various domains of images. However, existing
methods mainly rely on training specialist embedding models each of which is
applicable to images from a single domain. In this paper, we study an important
but unexplored task: how to train a single universal image embedding model to
match the performance of several specialists on each specialist's domain.
Simply fusing the training data from multiple domains cannot solve this problem
because some domains become overfitted sooner when trained together using
existing methods. Therefore, we propose to distill the knowledge in multiple
specialists into a universal embedding to solve this problem. In contrast to
existing embedding distillation methods that distill the absolute distances
between images, we transform the absolute distances between images into a
probabilistic distribution and minimize the KL-divergence between the
distributions of the specialists and the universal embedding. Using several
public datasets, we validate that our proposed method accomplishes the goal of
universal image embedding.
- Abstract(参考訳): 深部画像埋め込みは、2つの画像の意味的類似性を測定する方法を提供する。
画像検索、顔認証、ゼロショット学習など、多くのアプリケーションにおいて中心的な役割を果たす。
画像の様々な領域に適用可能な普遍的深層埋め込みモデルを持つことが望ましい。
しかし、既存の手法は主に訓練専門家の埋め込みモデルに依存しており、それぞれが単一のドメインの画像に適用できる。
本稿では,各専門家の領域における複数の専門家のパフォーマンスに合わせるために,単一の普遍的な画像埋め込みモデルをトレーニングする方法について検討する。
複数のドメインからトレーニングデータを融合するだけでは、既存のメソッドを使ってトレーニングすると、いくつかのドメインが過度に適合するため、この問題は解決できない。
そこで本研究では,複数の専門家の知識を普遍的な埋め込みに融合させてこの問題を解決することを提案する。
画像間の絶対距離を蒸留する既存の埋め込み蒸留法とは対照的に,画像間の絶対距離を確率分布に変換し,専門家の分布と普遍埋め込みとのKL分散を最小化する。
複数の公開データセットを用いて,提案手法がユニバーサル画像埋め込みの目標を達成することを検証した。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Towards Universal Image Embeddings: A Large-Scale Dataset and Challenge
for Generic Image Representations [4.606379774346321]
我々は、単一のユニバーサルモデルが訓練され、複数のドメインで使用される、普遍的なイメージ埋め込みの問題に対処する。
まず、既存のドメイン固有のデータセットを活用し、普遍的な画像埋め込みの評価のための新しい大規模公開ベンチマークを慎重に構築する。
第2に、新しいデータセットに関する包括的な実験的評価を行い、既存のアプローチと単純化された拡張が、各ドメインで個別にトレーニングされたモデルの集合よりもパフォーマンスを低下させることを示した。
論文 参考訳(メタデータ) (2023-09-04T23:18:38Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Internal Diverse Image Completion [38.068971605321096]
トレーニングセットを必要としない多種多様な補完手法を提案し,任意の領域からの任意の画像を扱えるようにした。
我々の内在的多彩性補完(IDC)アプローチは、1つの画像の複数のスケールで訓練された最近の単一画像生成モデルからインスピレーションを得ている。
論文 参考訳(メタデータ) (2022-12-18T10:02:53Z) - Fuse and Attend: Generalized Embedding Learning for Art and Sketches [6.375982344506753]
本稿では,様々な領域にまたがる一般化を目的とした新しい埋め込み学習手法を提案する。
PACS(Photo, Art painting, Cartoon, Sketch)データセット上で,Domainフレームワークを用いた手法の有効性を示す。
論文 参考訳(メタデータ) (2022-08-20T14:44:11Z) - WEDGE: Web-Image Assisted Domain Generalization for Semantic
Segmentation [72.88657378658549]
本稿では,Web画像の多様性を一般化可能なセマンティックセグメンテーションに活用したWEb画像支援ドメインゲネラライゼーション手法を提案する。
また,ウェブクローラー画像のスタイルをトレーニング中のトレーニング画像に注入する手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T05:19:58Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Universal Model for Multi-Domain Medical Image Retrieval [88.67940265012638]
医用画像検索(MIR)は、医師が類似した患者のデータを素早く見つけるのに役立つ。
MIRはデジタル画像モダリティの多用により、ますます役に立ちつつある。
しかし、病院における様々なデジタル画像モダリティの人気もまた、MIRにいくつかの課題をもたらしている。
論文 参考訳(メタデータ) (2020-07-14T23:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。