論文の概要: Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features
- arxiv url: http://arxiv.org/abs/2309.14999v1
- Date: Tue, 26 Sep 2023 15:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 13:14:07.023108
- Title: Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features
- Title(参考訳): 集約特徴を持つオブジェクト中心オープン語彙画像検索
- Authors: Hila Levi, Guy Heller, Dan Levi, Ethan Fetaya
- Abstract要約: 本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 12.14013374452918
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The task of open-vocabulary object-centric image retrieval involves the
retrieval of images containing a specified object of interest, delineated by an
open-set text query. As working on large image datasets becomes standard,
solving this task efficiently has gained significant practical importance.
Applications include targeted performance analysis of retrieved images using
ad-hoc queries and hard example mining during training. Recent advancements in
contrastive-based open vocabulary systems have yielded remarkable
breakthroughs, facilitating large-scale open vocabulary image retrieval.
However, these approaches use a single global embedding per image, thereby
constraining the system's ability to retrieve images containing relatively
small object instances. Alternatively, incorporating local embeddings from
detection pipelines faces scalability challenges, making it unsuitable for
retrieval from large databases.
In this work, we present a simple yet effective approach to object-centric
open-vocabulary image retrieval. Our approach aggregates dense embeddings
extracted from CLIP into a compact representation, essentially combining the
scalability of image retrieval pipelines with the object identification
capabilities of dense detection methods. We show the effectiveness of our
scheme to the task by achieving significantly better results than global
feature approaches on three datasets, increasing accuracy by up to 15 mAP
points. We further integrate our scheme into a large scale retrieval framework
and demonstrate our method's advantages in terms of scalability and
interpretability.
- Abstract(参考訳): オープンボキャブラリのオブジェクト中心の画像検索のタスクは、オープンセットのテキストクエリによって記述された特定の対象を含む画像の検索を伴う。
大規模な画像データセットの開発が標準になるにつれて、このタスクを効率的に解くことは、重要な実践的重要性を生んでいる。
アプリケーションには、アドホックなクエリとトレーニング中のハードサンプルマイニングを使用して検索された画像のパフォーマンス分析が含まれる。
コントラストベースのオープン語彙システムの最近の進歩は目覚ましいブレークスルーをもたらし、大規模オープン語彙画像検索を容易にしている。
しかし、これらのアプローチは画像ごとに単一のグローバル埋め込みを使用し、比較的小さなオブジェクトインスタンスを含む画像を取得する能力を制限している。
あるいは、検出パイプラインからのローカル組み込みはスケーラビリティの課題に直面しているため、大規模なデータベースからの検索には適さない。
本研究では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法では,CLIPから抽出した高密度埋め込みをコンパクトな表現に集約し,画像検索パイプラインのスケーラビリティと高密度検出手法のオブジェクト識別機能を組み合わせた。
提案手法の有効性は,3つのデータセットのグローバルな特徴的アプローチよりも有意に向上し,最大15mAPポイントの精度向上が図られている。
さらに,本手法を大規模検索フレームワークに統合し,拡張性と解釈可能性の観点から手法の利点を実証する。
関連論文リスト
- Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models [2.3301643766310374]
視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで,画像の特徴を抽出し,テキストデータに変換する。
従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能が優れていることを示す。
また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。
論文 参考訳(メタデータ) (2024-08-29T06:54:03Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Zero-shot sketch-based remote sensing image retrieval based on multi-level and attention-guided tokenization [8.678089483952474]
本研究では,リモートセンシング画像を対象としたゼロショット・スケッチベース検索手法を提案する。
マルチレベルの特徴抽出、自己アテンション誘導トークン化とフィルタリング、モダリティ間のアテンション更新が採用されている。
本手法は,既存のスケッチベースリモートセンシング画像検索技術よりも優れている。
論文 参考訳(メタデータ) (2024-02-03T13:11:14Z) - PICS: Pipeline for Image Captioning and Search [0.0]
本稿では,大規模画像レポジトリの編成に固有の複雑さに対処するために,PICS(Pipeline for Image Captioning and Search)を提案する。
このアプローチは、意味のあるAI生成キャプションが大規模なデータベースにおける画像の検索可能性とアクセシビリティを大幅に向上させる、という理解に根ざしている。
PICSの重要性は、画像データベースシステムを変換し、現代のデジタル資産管理の要求を満たすために機械学習と自然言語処理の力を利用する可能性にある。
論文 参考訳(メタデータ) (2024-02-01T03:08:21Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Localizing Grouped Instances for Efficient Detection in Low-Resource
Scenarios [27.920304852537534]
可変物体の大きさや密度に適応するフレキシブルな検出手法を提案する。
我々は検出段階の連続に頼り、それぞれが個人だけでなく、対象の群を予測できる能力を持っている。
本稿では,2つの航空画像データセットの実験結果について報告し,提案手法が標準単発検出器よりも精度が高く,計算効率も高いことを示す。
論文 参考訳(メタデータ) (2020-04-27T07:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。