論文の概要: SearchAD: Large-Scale Rare Image Retrieval Dataset for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.08008v1
- Date: Thu, 09 Apr 2026 09:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.830517
- Title: SearchAD: Large-Scale Rare Image Retrieval Dataset for Autonomous Driving
- Title(参考訳): SearchAD: 自動運転のための大規模希少画像検索データセット
- Authors: Felix Embacher, Jonas Uhrig, Marius Cordts, Markus Enzweiler,
- Abstract要約: 堅牢な自律運転システムを構築するためには、大規模なデータセットから稀で安全に重要な運転シナリオを取得することが不可欠である。
我々は,AD用の大規模レア画像検索データセットであるSearchADを紹介した。
特に、非常に稀なクラスを探索するニードル・イン・ア・ヘイスタックの問題を対象としており、一部はデータセット全体で50回以下である。
- 参考スコア(独自算出の注目度): 6.044776150961302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving rare and safety-critical driving scenarios from large-scale datasets is essential for building robust autonomous driving (AD) systems. As dataset sizes continue to grow, the key challenge shifts from collecting more data to efficiently identifying the most relevant samples. We introduce SearchAD, a large-scale rare image retrieval dataset for AD containing over 423k frames drawn from 11 established datasets. SearchAD provides high-quality manual annotations of more than 513k bounding boxes covering 90 rare categories. It specifically targets the needle-in-a-haystack problem of locating extremely rare classes, with some appearing fewer than 50 times across the entire dataset. Unlike existing benchmarks, which focused on instance-level retrieval, SearchAD emphasizes semantic image retrieval with a well-defined data split, enabling text-to-image and image-to-image retrieval, few-shot learning, and fine-tuning of multi-modal retrieval models. Comprehensive evaluations show that text-based methods outperform image-based ones due to stronger inherent semantic grounding. While models directly aligning spatial visual features with language achieve the best zero-shot results, and our fine-tuning baseline significantly improves performance, absolute retrieval capabilities remain unsatisfactory. With a held-out test set on a public benchmark server, SearchAD establishes the first large-scale dataset for retrieval-driven data curation and long-tail perception research in AD: https://iis-esslingen.github.io/searchad/
- Abstract(参考訳): 大規模データセットからまれで安全に重要な運転シナリオを取得することは、堅牢な自律運転(AD)システムを構築する上で不可欠である。
データセットのサイズが大きくなるにつれて、重要な課題は、より多くのデータを集めることから、最も関連性の高いサンプルを効率的に識別することへとシフトする。
我々は,AD用の大規模レア画像検索データセットであるSearchADを紹介した。
SearchADは、90の稀なカテゴリをカバーする513k以上のバウンディングボックスの高品質な手動アノテーションを提供する。
特に、非常に稀なクラスを探索するニードル・イン・ア・ヘイスタックの問題を対象としており、一部はデータセット全体で50回以下である。
インスタンスレベルの検索に焦点を当てた既存のベンチマークとは異なり、SearchADは明確に定義されたデータ分割によるセマンティックイメージ検索を強調しており、テキスト・ツー・イメージ検索や画像・画像検索、少数ショット学習、マルチモーダル検索モデルの微調整を可能にしている。
包括的評価により,テキストベースの手法は,より強い意味的接地により画像ベースの手法よりも優れていることが示された。
空間的視覚的特徴と言語を直接一致させるモデルは、最高のゼロショット結果を得る一方、微調整ベースラインは性能を著しく向上させるが、絶対的な検索能力は相変わらず不満足である。
公開ベンチマークサーバに保持されたテストセットで、SearchADは、検索駆動型データキュレーションとADにおけるロングテール知覚研究のための最初の大規模データセットを確立する。
関連論文リスト
- DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - ILIAS: Instance-Level Image retrieval At Scale [10.013289586440104]
ILIASはインスタンスレベルイメージ検索のための新しいテストデータセットである。
それは、現在および将来の基礎モデルと、特定のオブジェクトを認識するための検索技術を評価するために設計されている。
論文 参考訳(メタデータ) (2025-02-17T12:42:38Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Unsupervised Pre-training for Person Re-identification [90.98552221699508]
大規模無ラベル人物再識別(Re-ID)データセットLUPersonを提案する。
学習者のRe-ID特徴表現の一般化能力を向上させるために,教師なし事前学習を初めて行おうとする。
論文 参考訳(メタデータ) (2020-12-07T14:48:26Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。