論文の概要: Unicom: Universal and Compact Representation Learning for Image
Retrieval
- arxiv url: http://arxiv.org/abs/2304.05884v1
- Date: Wed, 12 Apr 2023 14:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:44:23.275374
- Title: Unicom: Universal and Compact Representation Learning for Image
Retrieval
- Title(参考訳): Unicom:画像検索のためのユニバーサルでコンパクトな表現学習
- Authors: Xiang An, Jiankang Deng, Kaicheng Yang, Jaiwei Li, Ziyong Feng, Jia
Guo, Jing Yang, Tongliang Liu
- Abstract要約: 大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
- 参考スコア(独自算出の注目度): 65.96296089560421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern image retrieval methods typically rely on fine-tuning pre-trained
encoders to extract image-level descriptors. However, the most widely used
models are pre-trained on ImageNet-1K with limited classes. The pre-trained
feature representation is therefore not universal enough to generalize well to
the diverse open-world classes. In this paper, we first cluster the large-scale
LAION400M into one million pseudo classes based on the joint textual and visual
features extracted by the CLIP model. Due to the confusion of label
granularity, the automatically clustered dataset inevitably contains heavy
inter-class conflict. To alleviate such conflict, we randomly select partial
inter-class prototypes to construct the margin-based softmax loss. To further
enhance the low-dimensional feature representation, we randomly select partial
feature dimensions when calculating the similarities between embeddings and
class-wise prototypes. The dual random partial selections are with respect to
the class dimension and the feature dimension of the prototype matrix, making
the classification conflict-robust and the feature embedding compact. Our
method significantly outperforms state-of-the-art unsupervised and supervised
image retrieval approaches on multiple benchmarks. The code and pre-trained
models are released to facilitate future research
https://github.com/deepglint/unicom.
- Abstract(参考訳): 現代の画像検索法は、通常、画像レベルの記述子を抽出するための微調整済みエンコーダに依存している。
しかし、最も広く使われているモデルは、限られたクラスでimagenet-1kで事前訓練されている。
したがって、事前訓練された特徴表現は、多様なオープンワールドクラスにうまく一般化できるほど普遍的ではない。
本稿では,大規模LAION400MをCLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
ラベルの粒度の混乱のため、自動的にクラスタ化されたデータセットは必然的に、クラス間の激しい衝突を含む。
このような対立を緩和するため、我々はランダムにクラス間プロトタイプを選択し、マージンベースのソフトマックス損失を構築する。
低次元特徴表現をさらに強化するため,埋め込みとクラスワイズプロトタイプの類似度を計算する際に,部分的特徴次元をランダムに選択する。
双対ランダムな部分選択は、プロトタイプ行列のクラス次元と特徴次元に関するもので、分類の競合-ロバストと特徴埋め込みをコンパクトにする。
本手法は,複数のベンチマークにおいて,非教師なしかつ教師なしの画像検索手法を著しく上回っている。
コードと事前訓練されたモデルは、将来の研究を促進するためにリリースされている。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - CAR: Class-aware Regularizations for Semantic Segmentation [20.947897583427192]
特徴学習におけるクラス内分散とクラス間距離を最適化するためのクラス認識正規化(CAR)手法を提案する。
本手法は,OCRやCPNetを含む既存のセグメンテーションモデルに容易に適用することができる。
論文 参考訳(メタデータ) (2022-03-14T15:02:48Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Improving Few-shot Learning with Weakly-supervised Object Localization [24.3569501375842]
画像のクラス関連領域から特徴を抽出してクラス表現を生成する新しいフレームワークを提案する。
提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。
論文 参考訳(メタデータ) (2021-05-25T07:39:32Z) - One-Shot Image Classification by Learning to Restore Prototypes [11.448423413463916]
ワンショット画像分類は、カテゴリ毎に1つの画像しか持たないデータセット上で、イメージ分類器を訓練することを目的としている。
ワンショット学習では、既存のメトリック学習アプローチは、単一のトレーニングイメージがクラスを代表するものではない可能性があるため、パフォーマンスが低下する。
本稿では,RestoreNet で表される単純な回帰モデルを提案する。画像特徴のクラス変換を学習し,特徴空間のクラス中心に画像を移動させる。
論文 参考訳(メタデータ) (2020-05-04T02:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。