論文の概要: ILIAS: Instance-Level Image retrieval At Scale
- arxiv url: http://arxiv.org/abs/2502.11748v2
- Date: Wed, 26 Mar 2025 17:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:49:02.842513
- Title: ILIAS: Instance-Level Image retrieval At Scale
- Title(参考訳): ILIAS: スケールでのインスタンスレベルイメージ検索
- Authors: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias,
- Abstract要約: ILIASはインスタンスレベルイメージ検索のための新しいテストデータセットである。
それは、現在および将来の基礎モデルと、特定のオブジェクトを認識するための検索技術を評価するために設計されている。
- 参考スコア(独自算出の注目度): 10.013289586440104
- License:
- Abstract: This work introduces ILIAS, a new test dataset for Instance-Level Image retrieval At Scale. It is designed to evaluate the ability of current and future foundation models and retrieval techniques to recognize particular objects. The key benefits over existing datasets include large scale, domain diversity, accurate ground truth, and a performance that is far from saturated. ILIAS includes query and positive images for 1,000 object instances, manually collected to capture challenging conditions and diverse domains. Large-scale retrieval is conducted against 100 million distractor images from YFCC100M. To avoid false negatives without extra annotation effort, we include only query objects confirmed to have emerged after 2014, i.e. the compilation date of YFCC100M. An extensive benchmarking is performed with the following observations: i) models fine-tuned on specific domains, such as landmarks or products, excel in that domain but fail on ILIAS ii) learning a linear adaptation layer using multi-domain class supervision results in performance improvements, especially for vision-language models iii) local descriptors in retrieval re-ranking are still a key ingredient, especially in the presence of severe background clutter iv) the text-to-image performance of the vision-language foundation models is surprisingly close to the corresponding image-to-image case. website: https://vrg.fel.cvut.cz/ilias/
- Abstract(参考訳): この作業では、インスタンスレベルイメージ検索のための新しいテストデータセットであるILIASが導入されている。
それは、現在および将来の基礎モデルと、特定のオブジェクトを認識するための検索技術を評価するために設計されている。
既存のデータセットに対する大きなメリットは、大規模、ドメインの多様性、正確な基底真理、飽和していないパフォーマンスである。
ILIASには1000のオブジェクトインスタンスに対するクエリと肯定的なイメージが含まれており、課題のある条件やさまざまなドメインを手作業で収集する。
大規模検索は、YFCC100Mからの1億の妨害画像に対して行われる。
追加のアノテーションを使わずに偽陰性を避けるため、2014年以降に現れたと確認されたクエリオブジェクトのみを含む。
広範なベンチマークを下記の観測で実施する。
一 ランドマーク又は商品等の特定領域に微調整されたモデルであって、その領域で排他的であるものの、ILIASで失敗すること。
二 多分野クラス監督を用いた線形適応レイヤーの学習により、特に視覚言語モデルの性能改善が図られること。
三 検索再ランクのローカルディスクリプタは、特に厳しい背景クラッタの存在において、依然として重要な要素である。
iv)視覚言語基礎モデルのテキスト・ツー・イメージのパフォーマンスは、対応する画像・イメージ・ケースに驚くほど近い。
ウェブサイト:https://vrg.fel.cvut.cz/ilias/
関連論文リスト
- EFSA: Episodic Few-Shot Adaptation for Text-to-Image Retrieval [6.826641237986711]
Episodic Few-Shot Adaptation (EFSA)は、事前学習されたモデルをクエリのドメインに動的に適用する新しいテストタイムフレームワークである。
EFSAは、一般化を維持しながら、さまざまなドメインのパフォーマンスを改善する。
本研究は,オープンドメインテキスト・ツー・イメージ検索の重要・未検討課題における頑健性を高めるために,エピソードな小ショット適応の可能性を強調した。
論文 参考訳(メタデータ) (2024-11-28T17:09:20Z) - A High-Resolution Dataset for Instance Detection with Multi-View
Instance Capture [15.298790238028356]
インスタンス検出(InsDet)は、ロボット工学とコンピュータビジョンにおける長期的な問題である。
現在のInsDetは、今日の標準ではスケールが小さすぎる。
InsDetの新しいデータセットとプロトコルを導入します。
論文 参考訳(メタデータ) (2023-10-30T03:58:41Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Object Detection in Aerial Images: A Large-Scale Benchmark and
Challenges [124.48654341780431]
航空画像(DOTA)におけるオブジェクトデテクションの大規模データセットとODAIの総合的ベースラインについて述べる。
提案するDOTAデータセットは,11,268個の空中画像から収集した18カテゴリのオブジェクト指向ボックスアノテーションの1,793,658個のオブジェクトインスタンスを含む。
70以上の構成を持つ10の最先端アルゴリズムをカバーするベースラインを構築し,各モデルの速度と精度を評価した。
論文 参考訳(メタデータ) (2021-02-24T11:20:55Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。