論文の概要: Efficient and Discriminative Image Feature Extraction for Universal Image Retrieval
- arxiv url: http://arxiv.org/abs/2409.13513v1
- Date: Fri, 20 Sep 2024 13:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:53:09.557055
- Title: Efficient and Discriminative Image Feature Extraction for Universal Image Retrieval
- Title(参考訳): ユニバーサル画像検索のための効率的・識別的特徴抽出
- Authors: Morris Florek, David Tschirschwitz, Björn Barz, Volker Rodehorst,
- Abstract要約: 様々な領域にまたがる強力な意味的イメージ表現を提供する普遍的特徴抽出装置のためのフレームワークを開発する。
Google Universal Image Embedding Challengeでは、mMP@5の0.721で、最先端の成果をほぼ達成しています。
類似の計算条件を持つ手法と比較して,従来の手法よりも3.3ポイント優れていた。
- 参考スコア(独自算出の注目度): 1.907072234794597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current image retrieval systems often face domain specificity and generalization issues. This study aims to overcome these limitations by developing a computationally efficient training framework for a universal feature extractor that provides strong semantic image representations across various domains. To this end, we curated a multi-domain training dataset, called M4D-35k, which allows for resource-efficient training. Additionally, we conduct an extensive evaluation and comparison of various state-of-the-art visual-semantic foundation models and margin-based metric learning loss functions regarding their suitability for efficient universal feature extraction. Despite constrained computational resources, we achieve near state-of-the-art results on the Google Universal Image Embedding Challenge, with a mMP@5 of 0.721. This places our method at the second rank on the leaderboard, just 0.7 percentage points behind the best performing method. However, our model has 32% fewer overall parameters and 289 times fewer trainable parameters. Compared to methods with similar computational requirements, we outperform the previous state of the art by 3.3 percentage points. We release our code and M4D-35k training set annotations at https://github.com/morrisfl/UniFEx.
- Abstract(参考訳): 現在の画像検索システムはドメインの特異性や一般化の問題に直面することが多い。
本研究の目的は、様々な領域にまたがる強力な意味的イメージ表現を提供する普遍的特徴抽出器のための、計算効率の良いトレーニングフレームワークを開発することにより、これらの制限を克服することである。
この目的のために、リソース効率のトレーニングを可能にするM4D-35kと呼ばれるマルチドメイントレーニングデータセットをキュレートしました。
さらに、効率的な普遍的特徴抽出に適合するかどうかについて、最先端のビジュアルセマンティック基礎モデルとマージンに基づく距離学習損失関数の広範な評価と比較を行う。
制約のある計算資源にもかかわらず、Google Universal Image Embedding Challengeにおいて、mMP@5の0.721で最先端の成果を達成している。
これにより、ベストパフォーマンスメソッドのわずか0.7ポイントのリードボードに、私たちのメソッドを第2位に配置します。
しかし、我々のモデルは、全体的なパラメータが32%少なく、トレーニング可能なパラメータが289倍少ない。
類似の計算条件を持つ手法と比較して,従来の最先端の手法よりも3.3パーセント高い性能を示した。
私たちはコードとM4D-35kのトレーニングセットアノテーションをhttps://github.com/morrisfl/UniFExでリリースしています。
関連論文リスト
- Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms [1.1557852082644071]
少数の分類の文脈において、ゴールは、限られた数のサンプルを使用して分類器を訓練することである。
伝統的なメートル法は、この目的を達成するための一定の限界を示す。
提案手法では,サンプルを異なる特徴空間にマッピングするマルチ出力埋め込みネットワークを利用する。
論文 参考訳(メタデータ) (2024-09-12T12:34:29Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval [27.751399400911932]
本稿では,細粒度ファッション検索のための属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を提案する。
具体的には、まず事前訓練された特徴抽出器を拡張し、マルチレベル画像埋め込みをキャプチャする。
そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
論文 参考訳(メタデータ) (2022-12-27T05:28:38Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - ResLT: Residual Learning for Long-tailed Recognition [64.19728932445523]
本稿では,パラメータ空間の側面から,より基本的なロングテール認識の視点を提案する。
すべてのクラスから画像を認識するために最適化されたメインブランチと、medium+tailクラスとtailクラスからのイメージを強化するために徐々に2つの残りのブランチを融合して最適化する。
我々は、CIFAR-10、CIFAR-100、Places、ImageNet、iNaturalist 2018の長期バージョンであるいくつかのベンチマークでこの方法をテストする。
論文 参考訳(メタデータ) (2021-01-26T08:43:50Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Learning Condition Invariant Features for Retrieval-Based Localization
from 1M Images [85.81073893916414]
我々は、より正確で、より一般化されたローカライゼーション特徴を学習する新しい方法を開発した。
難易度の高いオックスフォード・ロボットカーの夜間条件では、5m以内の局所化精度でよく知られた三重項損失を24.4%上回っている。
論文 参考訳(メタデータ) (2020-08-27T14:46:22Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。