論文の概要: Composed Object Retrieval: Object-level Retrieval via Composed Expressions
- arxiv url: http://arxiv.org/abs/2508.04424v1
- Date: Wed, 06 Aug 2025 13:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.731166
- Title: Composed Object Retrieval: Object-level Retrieval via Composed Expressions
- Title(参考訳): Composed Object Retrieval: Composed ExpressionsによるObject-level Retrieval
- Authors: Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。
COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。
また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
- 参考スコア(独自算出の注目度): 71.47650333199628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving fine-grained visual content based on user intent remains a challenge in multi-modal systems. Although current Composed Image Retrieval (CIR) methods combine reference images with retrieval texts, they are constrained to image-level matching and cannot localize specific objects. To this end, we propose Composed Object Retrieval (COR), a brand-new task that goes beyond image-level retrieval to achieve object-level precision, allowing the retrieval and segmentation of target objects based on composed expressions combining reference objects and retrieval texts. COR presents significant challenges in retrieval flexibility, which requires systems to identify arbitrary objects satisfying composed expressions while avoiding semantically similar but irrelevant negative objects within the same scene. We construct COR127K, the first large-scale COR benchmark that contains 127,166 retrieval triplets with various semantic transformations in 408 categories. We also present CORE, a unified end-to-end model that integrates reference region encoding, adaptive visual-textual interaction, and region-level contrastive learning. Extensive experiments demonstrate that CORE significantly outperforms existing models in both base and novel categories, establishing a simple and effective baseline for this challenging task while opening new directions for fine-grained multi-modal retrieval research.
- Abstract(参考訳): ユーザ意図に基づくきめ細かいビジュアルコンテンツを取得することは、マルチモーダルシステムでは依然として課題である。
現在のComposted Image Retrieval (CIR) 法は参照画像と検索テキストを組み合わせるが、画像レベルのマッチングに制約があり、特定のオブジェクトをローカライズできない。
この目的のために,画像レベルの検索を超えてオブジェクトレベルの精度を実現する新しいタスクであるComposeed Object Retrieval(COR)を提案し,参照オブジェクトと検索テキストを組み合わせた合成式に基づいて対象オブジェクトの検索とセグメンテーションを可能にする。
システムは、同じシーン内で意味的に類似しているが、無関係な負のオブジェクトを避けながら、合成表現を満たす任意のオブジェクトを識別する必要がある。
COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。
また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
大規模な実験により、COREは、ベースモデルと新規モデルの両方において、既存のモデルよりも大幅に優れており、より詳細なマルチモーダル検索研究のための新しい方向を開拓しつつ、この課題に対する単純かつ効果的なベースラインを確立している。
関連論文リスト
- Find your Needle: Small Object Image Retrieval via Multi-Object Attention Optimization [5.2337753974570616]
本研究では,小物体画像検索(SoIR)の課題に対処する。その目的は,特定の小物体を含む画像を,散らばったシーンで検索することである。
主な課題は、画像内のすべてのオブジェクトを効果的に表現する、スケーラブルで効率的な検索のための単一のイメージ記述子を構築することである。
専用多目的事前学習フェーズを組み込んだ新しい検索フレームワークであるMaO(Multi-object Attention Optimization)を導入する。
論文 参考訳(メタデータ) (2025-03-10T08:27:02Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [11.112981323262337]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-09-26T15:13:09Z) - Learning Dynamic Query Combinations for Transformer-based Object
Detection and Segmentation [37.24532930188581]
トランスフォーマーに基づく検出とセグメンテーション方法は、学習された検出クエリのリストを使用して、トランスフォーマーネットワークから情報を取得する。
学習したクエリの無作為な凸の組み合わせは、まだ対応するモデルに相応しいことを実証的に見出した。
本稿では,画像の高レベルな意味論に基づいて,動的係数と凸の組み合わせを学習することを提案する。
論文 参考訳(メタデータ) (2023-07-23T06:26:27Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。