論文の概要: SORCE: Small Object Retrieval in Complex Environments
- arxiv url: http://arxiv.org/abs/2505.24441v1
- Date: Fri, 30 May 2025 10:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.902209
- Title: SORCE: Small Object Retrieval in Complex Environments
- Title(参考訳): SORCE: 複雑な環境での小さなオブジェクト検索
- Authors: Chunxu Liu, Chi Xie, Xiaxu Chen, Wei Li, Feng Zhu, Rui Zhao, Limin Wang,
- Abstract要約: 本稿では,T2IRの新たなサブフィールドであるSORCE(Small Object Retrieval in Complex Environments)を紹介する。
SORCE-1Kの予備解析では、既存のT2IRメソッドは小さなオブジェクトをキャプチャし、すべてのセマンティクスを単一の埋め込みにエンコードするのに苦労している。
我々はMLLM(Multimodal Large Language Models)を活用して、一組のReP(Regional Prompts)で指示された各画像に対する複数の埋め込みを抽出する。
- 参考スコア(独自算出の注目度): 19.406708973678608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image Retrieval (T2IR) is a highly valuable task that aims to match a given textual query to images in a gallery. Existing benchmarks primarily focus on textual queries describing overall image semantics or foreground salient objects, possibly overlooking inconspicuous small objects, especially in complex environments. Such small object retrieval is crucial, as in real-world applications, the targets of interest are not always prominent in the image. Thus, we introduce SORCE (Small Object Retrieval in Complex Environments), a new subfield of T2IR, focusing on retrieving small objects in complex images with textual queries. We propose a new benchmark, SORCE-1K, consisting of images with complex environments and textual queries describing less conspicuous small objects with minimal contextual cues from other salient objects. Preliminary analysis on SORCE-1K finds that existing T2IR methods struggle to capture small objects and encode all the semantics into a single embedding, leading to poor retrieval performance on SORCE-1K. Therefore, we propose to represent each image with multiple distinctive embeddings. We leverage Multimodal Large Language Models (MLLMs) to extract multiple embeddings for each image instructed by a set of Regional Prompts (ReP). Experimental results show that our multi-embedding approach through MLLM and ReP significantly outperforms existing T2IR methods on SORCE-1K. Our experiments validate the effectiveness of SORCE-1K for benchmarking SORCE performances, highlighting the potential of multi-embedding representation and text-customized MLLM features for addressing this task.
- Abstract(参考訳): Text-to-Image Retrieval(T2IR)は、ギャラリー内の画像に与えられたテキストクエリをマッチさせることを目的とした、非常に価値のあるタスクである。
既存のベンチマークは主に、画像のセマンティクス全体や前景の健全なオブジェクトを記述するテキストクエリに焦点を当てており、特に複雑な環境では、目立たない小さなオブジェクトを見下ろしている可能性がある。
このような小さなオブジェクトの検索は、現実世界のアプリケーションのように、画像において関心の対象が常に顕著であるとは限らない。
そこで我々は,T2IRの新たなサブフィールドであるSORCE(Small Object Retrieval in Complex Environments)を導入し,テキストクエリによる複雑な画像中の小さなオブジェクトの検索に着目した。
我々は、複雑な環境を持つ画像と、あまり目立たない小さなオブジェクトを記述し、他の有意義なオブジェクトから最小限の文脈的手がかりを記述したテキストクエリからなる新しいベンチマークSORCE-1Kを提案する。
SORCE-1Kの予備解析では、既存のT2IR法は小さなオブジェクトを捕捉し、すべてのセマンティクスを単一の埋め込みに符号化するのに苦労しており、SORCE-1Kの検索性能は低下している。
そこで本研究では,各画像を複数の特徴的埋め込みで表現することを提案する。
MLLM(Multimodal Large Language Models)を用いて,ReP(Regional Prompts)によって指示された各画像に対する複数の埋め込みを抽出する。
MLLMとRePによるマルチエンベディング手法は,SORCE-1Kの既存のT2IR法よりも優れていた。
本実験では,SORCE-1KによるSORCE性能評価の有効性を検証し,この課題に対処するためのマルチ埋め込み表現とテキスト変換MLLM機能の可能性を強調した。
関連論文リスト
- Find your Needle: Small Object Image Retrieval via Multi-Object Attention Optimization [5.2337753974570616]
本研究では,小物体画像検索(SoIR)の課題に対処する。その目的は,特定の小物体を含む画像を,散らばったシーンで検索することである。
主な課題は、画像内のすべてのオブジェクトを効果的に表現する、スケーラブルで効率的な検索のための単一のイメージ記述子を構築することである。
専用多目的事前学習フェーズを組み込んだ新しい検索フレームワークであるMaO(Multi-object Attention Optimization)を導入する。
論文 参考訳(メタデータ) (2025-03-10T08:27:02Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,マルチイメージ部分レベルの推論セグメンテーションのためのLVLM(Large Vision-Language Model)を提案する。
セマンティックな部分レベルの対応を識別する新しい対応抽出モジュールと、この情報をLVLMに埋め込む適応対応モジュールである。
パラメータの0.3%しか微調整されていないCALICOは,この課題に対して高いパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [11.112981323262337]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-09-26T15:13:09Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Referring Image Matting [85.77905619102802]
本稿では,Referring Image Matting (RIM) という新しいタスクを紹介する。
RIMは、与えられた自然言語記述に最もよくマッチする特定のオブジェクトの細かなアルファマットを抽出することを目的としている。
RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
論文 参考訳(メタデータ) (2022-06-10T14:44:43Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Compact Deep Aggregation for Set Retrieval [87.52470995031997]
画像の大規模データセットから複数の顔を含む画像を取得することに焦点を当てる。
ここでは、セットは各画像の顔記述子で構成され、複数のIDに対するクエリが与えられた後、すべてのIDを含む画像を取得することが目標である。
このコンパクトディスクリプタは,画像毎に最大2面まで識別性の低下が最小限に抑えられ,その後徐々に劣化することを示す。
論文 参考訳(メタデータ) (2020-03-26T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。