論文の概要: Find your Needle: Small Object Image Retrieval via Multi-Object Attention Optimization
- arxiv url: http://arxiv.org/abs/2503.07038v1
- Date: Mon, 10 Mar 2025 08:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:02.556817
- Title: Find your Needle: Small Object Image Retrieval via Multi-Object Attention Optimization
- Title(参考訳): Find your Needle: Multi-Object Attention Optimization による小さなオブジェクトイメージ検索
- Authors: Mihcael Green, Matan Levy, Issar Tzachor, Dvir Samuel, Nir Darshan, Rami Ben-Ari,
- Abstract要約: 本研究では,小物体画像検索(SoIR)の課題に対処する。その目的は,特定の小物体を含む画像を,散らばったシーンで検索することである。
主な課題は、画像内のすべてのオブジェクトを効果的に表現する、スケーラブルで効率的な検索のための単一のイメージ記述子を構築することである。
専用多目的事前学習フェーズを組み込んだ新しい検索フレームワークであるMaO(Multi-object Attention Optimization)を導入する。
- 参考スコア(独自算出の注目度): 5.2337753974570616
- License:
- Abstract: We address the challenge of Small Object Image Retrieval (SoIR), where the goal is to retrieve images containing a specific small object, in a cluttered scene. The key challenge in this setting is constructing a single image descriptor, for scalable and efficient search, that effectively represents all objects in the image. In this paper, we first analyze the limitations of existing methods on this challenging task and then introduce new benchmarks to support SoIR evaluation. Next, we introduce Multi-object Attention Optimization (MaO), a novel retrieval framework which incorporates a dedicated multi-object pre-training phase. This is followed by a refinement process that leverages attention-based feature extraction with object masks, integrating them into a single unified image descriptor. Our MaO approach significantly outperforms existing retrieval methods and strong baselines, achieving notable improvements in both zero-shot and lightweight multi-object fine-tuning. We hope this work will lay the groundwork and inspire further research to enhance retrieval performance for this highly practical task.
- Abstract(参考訳): 本研究では,小物体画像検索(SoIR)の課題に対処する。その目的は,特定の小物体を含む画像を,散らばったシーンで検索することである。
この設定における重要な課題は、画像内のすべてのオブジェクトを効果的に表現するスケーラブルで効率的な検索のために、単一のイメージ記述子を構築することである。
本稿では,本課題における既存手法の限界をまず分析し,SoIR評価をサポートするための新しいベンチマークを導入する。
次に、専用マルチオブジェクト事前学習フェーズを組み込んだ新しい検索フレームワークであるMulti-object Attention Optimization(MaO)を紹介する。
これに続いて、注目に基づく特徴抽出をオブジェクトマスクで活用し、それらを単一の統合イメージ記述子に統合する改良プロセスが実施される。
我々のMaOアプローチは、既存の検索手法や強力なベースラインよりも優れており、ゼロショットと軽量なマルチオブジェクト微調整の両方において顕著な改善が達成されている。
我々は,本研究が基礎を築き,この高度に実践的なタスクの検索性能を高めるためのさらなる研究を刺激することを期待している。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval [6.493562178111347]
オブジェクト認識型クエリ摂動に基づくクロスモーダル画像テキスト検索フレームワーク」を提案する。
提案手法では、既存のV&Lモデルのリッチな表現力と検索性能を維持しつつ、追加の微調整をすることなく、オブジェクト認識のクロスモーダルな画像テキスト検索が可能となる。
論文 参考訳(メタデータ) (2024-07-17T06:42:14Z) - Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [11.112981323262337]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-09-26T15:13:09Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Addressing Visual Search in Open and Closed Set Settings [8.928169373673777]
低解像度ギスト画像から画素レベルのオブジェクト性を予測する手法を提案する。
次に,高分解能で局所的にオブジェクト検出を行う領域を選択する。
第二に、未確認の可能性のある対象クラスの全てのインスタンスを探索するオープンセットビジュアルサーチの新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-11T17:21:28Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Toward unsupervised, multi-object discovery in large-scale image
collections [26.39475298878971]
本稿では,Vo et al の最適化手法に基づく。
そこで我々は,新しいサリエンシに基づく領域提案アルゴリズムを提案する。
提案手法の階層構造を有効正則化器として活用する。
論文 参考訳(メタデータ) (2020-07-06T11:43:47Z) - Compact Deep Aggregation for Set Retrieval [87.52470995031997]
画像の大規模データセットから複数の顔を含む画像を取得することに焦点を当てる。
ここでは、セットは各画像の顔記述子で構成され、複数のIDに対するクエリが与えられた後、すべてのIDを含む画像を取得することが目標である。
このコンパクトディスクリプタは,画像毎に最大2面まで識別性の低下が最小限に抑えられ,その後徐々に劣化することを示す。
論文 参考訳(メタデータ) (2020-03-26T08:43:15Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。