論文の概要: Referring Expression Instance Retrieval and A Strong End-to-End Baseline
- arxiv url: http://arxiv.org/abs/2506.18246v2
- Date: Tue, 24 Jun 2025 03:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 13:29:37.730315
- Title: Referring Expression Instance Retrieval and A Strong End-to-End Baseline
- Title(参考訳): Referring Expression Instance Retrieval and a strong end-to-End Baseline
- Authors: Xiangzhao Hao, Kuan Zhu, Hongyu Guo, Haiyun Guo, Ning Jiang, Quan Lu, Ming Tang, JinQiao Wang,
- Abstract要約: 現実世界のシナリオは、大きなギャラリーをまたいだインスタンスレベルの検索とローカライゼーションの両方を必要とすることが多い。
本稿では,インスタンスレベルの検索とローカライゼーションを共同でサポートするReferring Expression Instance Retrieval (REIR)を提案する。
本稿では,MSCOCOインスタンスとRefCOCOインスタンスの微細な表現を生成するために,視覚言語モデルによって構築された大規模ベンチマークであるREIRCOCOを紹介する。
- 参考スコア(独自算出の注目度): 37.47466772169063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language querying of visual content underpins many vision-language tasks, typically categorized by text granularity and visual search scope. Text-Image Retrieval (TIR) retrieves whole images using coarse descriptions, while Referring Expression Comprehension (REC) localizes objects using fine-grained expressions within a single image. However, real-world scenarios often require both instance-level retrieval and localization across large galleries -- tasks where TIR lacks precision and REC lacks scalability. To address this gap, we propose a new task: Referring Expression Instance Retrieval (REIR), which jointly supports instance-level retrieval and localization. We introduce REIRCOCO, a large-scale benchmark constructed by prompting vision-language models to generate fine-grained expressions for MSCOCO and RefCOCO instances. We also present a baseline method, CLARE, featuring a dual-stream architecture with a Mix of Relation Experts (MORE) module for capturing inter-instance relationships. CLARE integrates object detection and REC pretraining with Contrastive Language-Instance Alignment (CLIA) for end-to-end optimization. Experiments show that CLARE achieves state-of-the-art performance on REIR and generalizes well to TIR and REC, highlighting its effectiveness and versatility.
- Abstract(参考訳): 視覚内容の自然言語クエリは、典型的にはテキストの粒度と視覚検索範囲によって分類される多くの視覚言語タスクの基盤となっている。
Text-Image Retrieval (TIR) は粗い記述を用いて画像全体を検索し、Referring Expression Comprehension (REC) は1つの画像内できめ細かい表現を用いてオブジェクトをローカライズする。
しかし、現実のシナリオでは、インスタンスレベルの検索と大規模なギャラリーのローカライゼーションの両方を必要とします -- TIRに精度が欠け、RECにスケーラビリティがないタスクです。
インスタンスレベルの検索とローカライゼーションを共同でサポートするREIR(Referring Expression Instance Retrieval)を提案する。
本稿では,MSCOCOインスタンスとRefCOCOインスタンスの微細な表現を生成するために,視覚言語モデルによって構築された大規模ベンチマークであるREIRCOCOを紹介する。
また,Mix of Relation Experts (MORE) モジュールを用いたマルチストリームアーキテクチャを特徴とするベースライン手法であるCLAREを提案する。
CLAREはオブジェクト検出とREC事前トレーニングをContrastive Language-Instance Alignment (CLIA)と統合し、エンドツーエンドの最適化を行う。
実験の結果、CLAREはREIRの最先端性能を達成し、TIRやRECとよく似ており、その有効性と汎用性を強調している。
関連論文リスト
- SORCE: Small Object Retrieval in Complex Environments [19.406708973678608]
本稿では,T2IRの新たなサブフィールドであるSORCE(Small Object Retrieval in Complex Environments)を紹介する。
SORCE-1Kの予備解析では、既存のT2IRメソッドは小さなオブジェクトをキャプチャし、すべてのセマンティクスを単一の埋め込みにエンコードするのに苦労している。
我々はMLLM(Multimodal Large Language Models)を活用して、一組のReP(Regional Prompts)で指示された各画像に対する複数の埋め込みを抽出する。
論文 参考訳(メタデータ) (2025-05-30T10:23:05Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Referring Expression Comprehension Using Language Adaptive Inference [15.09309604460633]
本稿では,動的推論のための表現モデルとRECモデルの適応性について検討する。
本稿では,参照表現に条件付きRECモデルから言語適応を抽出できるLanguage Adaptive Subnets (LADS) というフレームワークを提案する。
RefCOCO, RefCO+, RefCOCOg, Referit の実験により, 提案手法はより高速な推論速度と最先端手法に対する高精度な精度を実現することを示した。
論文 参考訳(メタデータ) (2023-06-06T07:58:59Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。