論文の概要: Referring Expression Instance Retrieval and A Strong End-to-End Baseline
- arxiv url: http://arxiv.org/abs/2506.18246v3
- Date: Thu, 26 Jun 2025 11:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 13:31:57.728266
- Title: Referring Expression Instance Retrieval and A Strong End-to-End Baseline
- Title(参考訳): Referring Expression Instance Retrieval and a strong end-to-End Baseline
- Authors: Xiangzhao Hao, Kuan Zhu, Hongyu Guo, Haiyun Guo, Ning Jiang, Quan Lu, Ming Tang, Jinqiao Wang,
- Abstract要約: テキスト画像検索は、画像レベルの記述に基づいてギャラリーからターゲット画像を取得する。
Referring Expressionは、インスタンスレベルの記述を使用して、所定のイメージ内でターゲットオブジェクトをローカライズする。
我々は、インスタンスレベルの検索とローカライゼーションの両方をサポートする textbfReferring Expression Instance Retrieval (REIR) という新しいタスクを導入する。
- 参考スコア(独自算出の注目度): 37.47466772169063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using natural language to query visual information is a fundamental need in real-world applications. Text-Image Retrieval (TIR) retrieves a target image from a gallery based on an image-level description, while Referring Expression Comprehension (REC) localizes a target object within a given image using an instance-level description. However, real-world applications often present more complex demands. Users typically query an instance-level description across a large gallery and expect to receive both relevant image and the corresponding instance location. In such scenarios, TIR struggles with fine-grained descriptions and object-level localization, while REC is limited in its ability to efficiently search large galleries and lacks an effective ranking mechanism. In this paper, we introduce a new task called \textbf{Referring Expression Instance Retrieval (REIR)}, which supports both instance-level retrieval and localization based on fine-grained referring expressions. First, we propose a large-scale benchmark for REIR, named REIRCOCO, constructed by prompting advanced vision-language models to generate high-quality referring expressions for instances in the MSCOCO and RefCOCO datasets. Second, we present a baseline method, Contrastive Language-Instance Alignment with Relation Experts (CLARE), which employs a dual-stream architecture to address REIR in an end-to-end manner. Given a referring expression, the textual branch encodes it into a query embedding. The visual branch detects candidate objects and extracts their instance-level visual features. The most similar candidate to the query is selected for bounding box prediction. CLARE is first trained on object detection and REC datasets to establish initial grounding capabilities, then optimized via Contrastive Language-Instance Alignment (CLIA) for improved retrieval across images. We will release our code and benchmark publicly.
- Abstract(参考訳): 自然言語を使って視覚情報をクエリすることは、現実世界のアプリケーションにとって基本的なニーズである。
テキスト画像検索(TIR)は、画像レベルの記述に基づいてギャラリーからターゲットイメージを検索し、Referring Expression Comprehension(REC)は、インスタンスレベルの記述を使用して、所定の画像内のターゲットオブジェクトをローカライズする。
しかし、現実世界のアプリケーションは、しばしばより複雑な要求を提示する。
ユーザは通常、大きなギャラリーでインスタンスレベルの説明をクエリし、関連するイメージと対応するインスタンス位置の両方を受け取ることを期待する。
このようなシナリオでは、TIRは粒度の細かい記述やオブジェクトレベルのローカライゼーションに苦労するが、RECは大きなギャラリーを効率的に検索する能力に制限があり、効果的なランキング機構が欠如している。
本稿では,より詳細な参照式に基づくインスタンスレベルの検索とローカライゼーションをサポートする新しいタスクである「textbf{Referring Expression Instance Retrieval (REIR)」を紹介する。
まず、先進的な視覚言語モデルを用いて、MSCOCOおよびRefCOCOデータセットのインスタンスに対する高品質な参照表現を生成することで、REIRの大規模ベンチマークREIRCOCOを提案する。
第2に,両ストリームアーキテクチャを用いてREIRをエンドツーエンドに処理するベースライン手法であるContrastive Language-Instance Alignment with Relation Experts (CLARE)を提案する。
参照式が与えられたら、テキストブランチはそれをクエリ埋め込みにエンコードする。
ビジュアルブランチは、候補オブジェクトを検出し、インスタンスレベルの視覚的特徴を抽出する。
クエリに最もよく似た候補は、バウンディングボックス予測のために選択される。
CLAREは最初、オブジェクト検出とRECデータセットに基づいてトレーニングされ、初期グラウンド機能を確立するとともに、画像間の検索を改善するためにContrastive Language-Instance Alignment (CLIA)を介して最適化される。
コードとベンチマークを公開します。
関連論文リスト
- SORCE: Small Object Retrieval in Complex Environments [19.406708973678608]
本稿では,T2IRの新たなサブフィールドであるSORCE(Small Object Retrieval in Complex Environments)を紹介する。
SORCE-1Kの予備解析では、既存のT2IRメソッドは小さなオブジェクトをキャプチャし、すべてのセマンティクスを単一の埋め込みにエンコードするのに苦労している。
我々はMLLM(Multimodal Large Language Models)を活用して、一組のReP(Regional Prompts)で指示された各画像に対する複数の埋め込みを抽出する。
論文 参考訳(メタデータ) (2025-05-30T10:23:05Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Referring Expression Comprehension Using Language Adaptive Inference [15.09309604460633]
本稿では,動的推論のための表現モデルとRECモデルの適応性について検討する。
本稿では,参照表現に条件付きRECモデルから言語適応を抽出できるLanguage Adaptive Subnets (LADS) というフレームワークを提案する。
RefCOCO, RefCO+, RefCOCOg, Referit の実験により, 提案手法はより高速な推論速度と最先端手法に対する高精度な精度を実現することを示した。
論文 参考訳(メタデータ) (2023-06-06T07:58:59Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。