論文の概要: All You Need to Know About Training Image Retrieval Models
- arxiv url: http://arxiv.org/abs/2503.13045v1
- Date: Mon, 17 Mar 2025 10:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:23.749836
- Title: All You Need to Know About Training Image Retrieval Models
- Title(参考訳): 画像検索モデルのトレーニングについて知っておくべきこと
- Authors: Gabriele Berton, Kevin Musgrave, Carlo Masone,
- Abstract要約: 我々は、これらの要因のそれぞれが取得精度に与える影響を理解するために、数万のトレーニングを実行します。
また、複数のデータセットにまたがるベストプラクティスを見つけます。
- 参考スコア(独自算出の注目度): 5.487297537295828
- License:
- Abstract: Image retrieval is the task of finding images in a database that are most similar to a given query image. The performance of an image retrieval pipeline depends on many training-time factors, including the embedding model architecture, loss function, data sampler, mining function, learning rate(s), and batch size. In this work, we run tens of thousands of training runs to understand the effect each of these factors has on retrieval accuracy. We also discover best practices that hold across multiple datasets. The code is available at https://github.com/gmberton/image-retrieval
- Abstract(参考訳): 画像検索は、与えられたクエリ画像と最もよく似たデータベース内の画像を見つけるタスクである。
画像検索パイプラインのパフォーマンスは、埋め込みモデルアーキテクチャ、損失関数、データサンプリング機能、マイニング機能、学習率、バッチサイズなど、多くのトレーニング時間要素に依存する。
本研究では,これらの要因が検索精度に与える影響を理解するために,数万のトレーニングを実行している。
また、複数のデータセットにまたがるベストプラクティスを見つけます。
コードはhttps://github.com/gmberton/image-retrievalで入手できる。
関連論文リスト
- Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Multi-Spectral Remote Sensing Image Retrieval Using Geospatial Foundation Models [0.562479170374811]
この研究は、PrithviのようなGeospatial Foundation Modelsをリモートセンシング画像検索に使用することを提案している。
検索タスクに2つのデータセットを導入し、高い性能を観察する。
Prithviは6つのバンドを処理し、平均精度はBigEarthNet-43で97.62%、フォレストNet-12で44.51%に達する。
論文 参考訳(メタデータ) (2024-03-04T14:00:45Z) - EigenPlaces: Training Viewpoint Robust Models for Visual Place
Recognition [22.98403243270106]
EigenPlacesと呼ばれる新しい手法を提案し、異なる視点からの画像に基づいてニューラルネットワークをトレーニングする。
基本的な考え方は、トレーニングデータをクラスタ化して、同じ関心点の異なるビューでモデルを明示的に提示することだ。
文献における最も包括的なデータセットのセットに関する実験を行い、EigenPlacesは、ほとんどのデータセットにおいて、過去の最先端の技術を上回ることができることを示した。
論文 参考訳(メタデータ) (2023-08-21T16:27:31Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval [89.30660533051514]
クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
論文 参考訳(メタデータ) (2023-04-06T21:45:46Z) - On Background Bias in Deep Metric Learning [5.368313160283353]
画像背景がDeep Metric Learningモデルに与える影響を分析する。
トレーニング中の画像の背景をランダムな背景画像に置き換えることでこの問題が軽減されることを示す。
論文 参考訳(メタデータ) (2022-10-04T13:57:39Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - LibFewShot: A Comprehensive Library for Few-shot Learning [78.58842209282724]
近年,画像分類に注目が集まり,近年顕著な進歩が見られた。
近年の研究では、データ強化、事前学習、知識蒸留、自己超越といった多くの一般的な手法や技法が、数発の学習法の性能を大幅に向上させる可能性があることが暗黙的に示されている。
そこで本研究では,PyTorchに固有の単一言語を組み込んだ一貫したフレームワークにおいて,17の最先端の複数ショット学習手法を再実装することにより,小ショット学習のための総合ライブラリ(LibFewShot)を提案する。
論文 参考訳(メタデータ) (2021-09-10T14:12:37Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。