論文の概要: Towards Universal Image Embeddings: A Large-Scale Dataset and Challenge
for Generic Image Representations
- arxiv url: http://arxiv.org/abs/2309.01858v1
- Date: Mon, 4 Sep 2023 23:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:03:43.326630
- Title: Towards Universal Image Embeddings: A Large-Scale Dataset and Challenge
for Generic Image Representations
- Title(参考訳): Universal Image Embeddings: 大規模データセットとジェネリックイメージ表現への挑戦
- Authors: Nikolaos-Antonios Ypsilantis, Kaifeng Chen, Bingyi Cao, M\'ario
Lipovsk\'y, Pelin Dogan-Sch\"onberger, Grzegorz Makosa, Boris Bluntschli,
Mojtaba Seyedhosseini, Ond\v{r}ej Chum, Andr\'e Araujo
- Abstract要約: 我々は、単一のユニバーサルモデルが訓練され、複数のドメインで使用される、普遍的なイメージ埋め込みの問題に対処する。
まず、既存のドメイン固有のデータセットを活用し、普遍的な画像埋め込みの評価のための新しい大規模公開ベンチマークを慎重に構築する。
第2に、新しいデータセットに関する包括的な実験的評価を行い、既存のアプローチと単純化された拡張が、各ドメインで個別にトレーニングされたモデルの集合よりもパフォーマンスを低下させることを示した。
- 参考スコア(独自算出の注目度): 4.606379774346321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained and instance-level recognition methods are commonly trained and
evaluated on specific domains, in a model per domain scenario. Such an
approach, however, is impractical in real large-scale applications. In this
work, we address the problem of universal image embedding, where a single
universal model is trained and used in multiple domains. First, we leverage
existing domain-specific datasets to carefully construct a new large-scale
public benchmark for the evaluation of universal image embeddings, with 241k
query images, 1.4M index images and 2.8M training images across 8 different
domains and 349k classes. We define suitable metrics, training and evaluation
protocols to foster future research in this area. Second, we provide a
comprehensive experimental evaluation on the new dataset, demonstrating that
existing approaches and simplistic extensions lead to worse performance than an
assembly of models trained for each domain separately. Finally, we conducted a
public research competition on this topic, leveraging industrial datasets,
which attracted the participation of more than 1k teams worldwide. This
exercise generated many interesting research ideas and findings which we
present in detail. Project webpage: https://cmp.felk.cvut.cz/univ_emb/
- Abstract(参考訳): 細粒度およびインスタンスレベルの認識方法は、ドメインシナリオごとのモデルで、特定のドメインで一般的に訓練され、評価される。
しかし、そのようなアプローチは実際の大規模アプリケーションでは実用的ではない。
本稿では、単一の普遍モデルが訓練され、複数の領域で使用されるユニバーサルイメージ埋め込みの問題に対処する。
まず、既存のドメイン固有のデータセットを利用して、241kのクエリイメージ、1.4mのインデックスイメージ、および8つの異なるドメインと349kクラスにわたる2.8mのトレーニングイメージを含む、ユニバーサルイメージ埋め込みの評価のための新しい大規模パブリックベンチマークを慎重に構築する。
この分野での今後の研究を促進するために、適切なメトリクス、トレーニング、評価プロトコルを定義します。
第2に、新しいデータセットに関する包括的な実験的評価を行い、既存のアプローチと単純化された拡張が、各ドメインで個別にトレーニングされたモデルの集合よりもパフォーマンスを低下させることを示した。
最後に、業界データセットを活用して、このトピックに関する公開研究コンペを実施し、世界中で1万以上のチームが参加しました。
この運動は、我々が詳細に提示する多くの興味深い研究アイデアと発見を生み出した。
プロジェクトWebページ: https://cmp.felk.cvut.cz/univ_emb/
関連論文リスト
- WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Grounding Stylistic Domain Generalization with Quantitative Domain Shift Measures and Synthetic Scene Images [63.58800688320182]
ドメインの一般化は機械学習において難しい課題である。
現在の方法論は、スタイリスティック領域におけるシフトに関する定量的な理解を欠いている。
これらのリスクに対処する新しいDGパラダイムを導入する。
論文 参考訳(メタデータ) (2024-05-24T22:13:31Z) - FORB: A Flat Object Retrieval Benchmark for Universal Image Embedding [7.272083488859574]
多様なパターンを持つ平坦な画像に対して,ビジュアル検索手法をベンチマークするための新しいデータセットを提案する。
我々のフラットオブジェクト検索ベンチマーク(FORB)は一般的に採用されている3Dオブジェクトドメインを補完する。
アウト・オブ・ディストリビューション領域のイメージ埋め込み品質を評価するためのテストベッドとして機能する。
論文 参考訳(メタデータ) (2023-09-28T08:41:51Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - FoPro: Few-Shot Guided Robust Webly-Supervised Prototypical Learning [82.75157675790553]
本稿ではFoPro表現学習法を提案する。
FoProはWebデータセットでトレーニングされており、実世界のデータセットでガイドされ、評価されている実世界の例がいくつかある。
提案手法は,3つの細粒度データセットと2つの大規模データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-12-01T12:39:03Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Current Trends in Deep Learning for Earth Observation: An Open-source
Benchmark Arena for Image Classification [7.511257876007757]
AiTLAS: Benchmark Arena"は、画像分類のための最先端のディープラーニングアプローチを評価するための、オープンソースのベンチマークフレームワークである。
本稿では,9種類の最先端アーキテクチャから派生した400以上のモデルについて,包括的比較分析を行った。
論文 参考訳(メタデータ) (2022-07-14T20:18:58Z) - The Met Dataset: Instance-level Recognition for Artworks [19.43143591288768]
この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。
私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
論文 参考訳(メタデータ) (2022-02-03T18:13:30Z) - A Universal Representation Transformer Layer for Few-Shot Image
Classification [43.31379752656756]
少ないショット分類は、少数のサンプルで示される場合、目に見えないクラスを認識することを目的としている。
本稿では,多様なデータソースから未確認のクラスやサンプルを抽出するマルチドメイン・少数ショット画像分類の問題点について考察する。
そこで本研究では,メタ学習者がユニバーサルな特徴を活用できるユニバーサル表現変換器層を提案する。
論文 参考訳(メタデータ) (2020-06-21T03:08:00Z) - Unifying Specialist Image Embedding into Universal Image Embedding [84.0039266370785]
画像の様々な領域に適用可能な普遍的な深層埋め込みモデルを持つことが望ましい。
本稿では,複数の専門家の知識を普遍的な埋め込みに融合させてこの問題を解決することを提案する。
論文 参考訳(メタデータ) (2020-03-08T02:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。