論文の概要: ReSeDis: A Dataset for Referring-based Object Search across Large-Scale Image Collections
- arxiv url: http://arxiv.org/abs/2506.15180v1
- Date: Wed, 18 Jun 2025 06:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.563634
- Title: ReSeDis: A Dataset for Referring-based Object Search across Large-Scale Image Collections
- Title(参考訳): ReSeDis: 大規模イメージコレクション間の参照ベースのオブジェクト検索のためのデータセット
- Authors: Ziling Huang, Yidan Zhang, Shin'ichi Satoh,
- Abstract要約: Referring Search and Discovery (ReSeDis) は,コーパスレベルの検索と画素レベルのグラウンド化を統合化する最初のタスクである。
厳密な研究を可能にするために、我々は、全ての記述が大きな多様なコーパスに散在するオブジェクトインスタンスに一意にマッピングされるベンチマークをキュレートする。
ReSeDisは、次世代の堅牢でスケーラブルなマルチモーダル検索システムを構築するための、現実的でエンドツーエンドのテストベッドを提供する。
- 参考スコア(独自算出の注目度): 14.076781094343362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale visual search engines are expected to solve a dual problem at once: (i) locate every image that truly contains the object described by a sentence and (ii) identify the object's bounding box or exact pixels within each hit. Existing techniques address only one side of this challenge. Visual grounding yields tight boxes and masks but rests on the unrealistic assumption that the object is present in every test image, producing a flood of false alarms when applied to web-scale collections. Text-to-image retrieval excels at sifting through massive databases to rank relevant images, yet it stops at whole-image matches and offers no fine-grained localization. We introduce Referring Search and Discovery (ReSeDis), the first task that unifies corpus-level retrieval with pixel-level grounding. Given a free-form description, a ReSeDis model must decide whether the queried object appears in each image and, if so, where it is, returning bounding boxes or segmentation masks. To enable rigorous study, we curate a benchmark in which every description maps uniquely to object instances scattered across a large, diverse corpus, eliminating unintended matches. We further design a task-specific metric that jointly scores retrieval recall and localization precision. Finally, we provide a straightforward zero-shot baseline using a frozen vision-language model, revealing significant headroom for future study. ReSeDis offers a realistic, end-to-end testbed for building the next generation of robust and scalable multimodal search systems.
- Abstract(参考訳): 大規模ビジュアル検索エンジンは、一度に2つの問題を解決することが期待されている。
i) 文によって記述された対象を真に含むすべての画像を特定し、
(ii)各ヒット内のオブジェクトのバウンディングボックスまたは正確なピクセルを特定する。
既存のテクニックは、この課題の片側だけに対処します。
ビジュアルグラウンドディングは、厳密なボックスとマスクを出力するが、オブジェクトがすべてのテストイメージに存在するという非現実的な仮定に基づいており、Webスケールのコレクションに適用すると、偽のアラームが溢れる。
テキスト・ツー・イメージ検索は、大量のデータベースを精査して関連画像のランク付けを行うのに優れていますが、全画像一致で停止し、きめ細かいローカライゼーションを提供しません。
Referring Search and Discovery (ReSeDis) は,コーパスレベルの検索と画素レベルのグラウンド化を統合化する最初のタスクである。
自由形式の記述が与えられた場合、ReSeDisモデルは、クエリされたオブジェクトが各画像に現れるかどうかを判断し、もしそうであれば、境界ボックスやセグメンテーションマスクを返す必要がある。
厳密な研究を可能にするために、我々は、すべての記述が大規模で多様なコーパスに散在するオブジェクトインスタンスに一意にマッピングされ、意図しない一致を排除したベンチマークをキュレートする。
さらに、検索リコールと位置決め精度を共同でスコアするタスク固有メトリックを設計する。
最後に,凍結した視覚言語モデルを用いて,ゼロショットベースラインを提供する。
ReSeDisは、次世代の堅牢でスケーラブルなマルチモーダル検索システムを構築するための、現実的でエンドツーエンドのテストベッドを提供する。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - FORB: A Flat Object Retrieval Benchmark for Universal Image Embedding [7.272083488859574]
多様なパターンを持つ平坦な画像に対して,ビジュアル検索手法をベンチマークするための新しいデータセットを提案する。
我々のフラットオブジェクト検索ベンチマーク(FORB)は一般的に採用されている3Dオブジェクトドメインを補完する。
アウト・オブ・ディストリビューション領域のイメージ埋め込み品質を評価するためのテストベッドとして機能する。
論文 参考訳(メタデータ) (2023-09-28T08:41:51Z) - Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。
我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。
我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文 参考訳(メタデータ) (2022-12-20T09:48:24Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Few-shot Object Counting and Detection [25.61294147822642]
我々は、ターゲットオブジェクトクラスのいくつかの例のバウンディングボックスを考慮に入れ、ターゲットクラスのすべてのオブジェクトをカウントし、検出する新しいタスクに取り組む。
このタスクは、数ショットのオブジェクトカウントと同じ監督を共有しますが、オブジェクトのバウンディングボックスと総オブジェクトカウントを出力します。
本稿では,新しい2段階トレーニング戦略と,新しい不確実性に留意した小ショットオブジェクト検出器であるCounting-DETRを紹介する。
論文 参考訳(メタデータ) (2022-07-22T10:09:18Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Addressing Visual Search in Open and Closed Set Settings [8.928169373673777]
低解像度ギスト画像から画素レベルのオブジェクト性を予測する手法を提案する。
次に,高分解能で局所的にオブジェクト検出を行う領域を選択する。
第二に、未確認の可能性のある対象クラスの全てのインスタンスを探索するオープンセットビジュアルサーチの新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-11T17:21:28Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Compact Deep Aggregation for Set Retrieval [87.52470995031997]
画像の大規模データセットから複数の顔を含む画像を取得することに焦点を当てる。
ここでは、セットは各画像の顔記述子で構成され、複数のIDに対するクエリが与えられた後、すべてのIDを含む画像を取得することが目標である。
このコンパクトディスクリプタは,画像毎に最大2面まで識別性の低下が最小限に抑えられ,その後徐々に劣化することを示す。
論文 参考訳(メタデータ) (2020-03-26T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。