論文の概要: Object-Level Targeted Selection via Deep Template Matching
- arxiv url: http://arxiv.org/abs/2207.01778v1
- Date: Tue, 5 Jul 2022 02:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 15:00:17.232006
- Title: Object-Level Targeted Selection via Deep Template Matching
- Title(参考訳): ディープテンプレートマッチングによるオブジェクトレベルターゲット選択
- Authors: Suraj Kothawade, Donna Roy, Michele Fenzi, Elmar Haussmann, Jose M.
Alvarez, Christoph Angerer
- Abstract要約: クエリ画像中の関心オブジェクト(OOI)と意味的に類似したオブジェクトで画像を取得するには、多くの実用的なユースケースがある。
既存の意味画像検索手法は、しばしばより大きな地理的ランドマークの採掘に焦点を当てる。
本稿では,DNN特徴空間における高速で堅牢なテンプレートマッチングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.237177875228012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving images with objects that are semantically similar to objects of
interest (OOI) in a query image has many practical use cases. A few examples
include fixing failures like false negatives/positives of a learned model or
mitigating class imbalance in a dataset. The targeted selection task requires
finding the relevant data from a large-scale pool of unlabeled data. Manual
mining at this scale is infeasible. Further, the OOI are often small and occupy
less than 1% of image area, are occluded, and co-exist with many semantically
different objects in cluttered scenes. Existing semantic image retrieval
methods often focus on mining for larger sized geographical landmarks, and/or
require extra labeled data, such as images/image-pairs with similar objects,
for mining images with generic objects. We propose a fast and robust template
matching algorithm in the DNN feature space, that retrieves semantically
similar images at the object-level from a large unlabeled pool of data. We
project the region(s) around the OOI in the query image to the DNN feature
space for use as the template. This enables our method to focus on the
semantics of the OOI without requiring extra labeled data. In the context of
autonomous driving, we evaluate our system for targeted selection by using
failure cases of object detectors as OOI. We demonstrate its efficacy on a
large unlabeled dataset with 2.2M images and show high recall in mining for
images with small-sized OOI. We compare our method against a well-known
semantic image retrieval method, which also does not require extra labeled
data. Lastly, we show that our method is flexible and retrieves images with one
or more semantically different co-occurring OOI seamlessly.
- Abstract(参考訳): クエリ画像中の関心オブジェクト(OOI)と意味的に類似したオブジェクトで画像を取得するには、多くの実用的なユースケースがある。
例えば、学習モデルの偽陰性/陽性などの障害の修正や、データセット内のクラス不均衡の緩和などだ。
ターゲット選択タスクは、ラベルなしデータの大規模なプールから関連するデータを見つける必要がある。
この規模の手動マイニングは不可能です。
さらに、OOIは小さく、画像領域の1%未満を占め、隠蔽され、散らばったシーンで多くの意味的に異なるオブジェクトと共存することが多い。
既存のセマンティック画像検索手法では、より大きな地理的ランドマークのマイニングや、類似のオブジェクトを使った画像/画像ペアなどの追加のラベル付きデータが必要となる場合が多い。
本研究では,dnn特徴空間における高速でロバストなテンプレートマッチングアルゴリズムを提案する。
問い合わせ画像中のOOI周辺の領域をDNN機能空間に投影し、テンプレートとして使用します。
これにより、余分なラベル付きデータを必要とせずにOOIのセマンティクスにフォーカスすることができる。
自律運転においては,物体検出装置の故障事例をOOIとして,対象選択システムの評価を行った。
2.2m画像を持つ大規模非ラベルデータセットでその効果を実証し,小型ooi画像のマイニングにおいて高いリコールを示す。
本手法は,ラベル付きデータを必要としないよく知られたセマンティック画像検索法と比較する。
最後に,本手法は柔軟であり,意味的に異なる1つ以上の画像をシームレスに検索可能であることを示す。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Learning from Rich Semantics and Coarse Locations for Long-tailed Object
Detection [157.18560601328534]
RichSemは、正確なバウンディングボックスを必要とせずに、粗い場所からリッチなセマンティクスを学ぶための堅牢な方法である。
我々はこれらのソフトセマンティクスを学習し、長い尾を持つ物体検出のための特徴表現を強化するために、セマンティクス分岐を検出器に追加する。
本手法は,複雑なトレーニングやテスト手順を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-18T17:59:41Z) - A Semi-supervised Object Detection Algorithm for Underwater Imagery [10.017195276758455]
本稿では, 変分オートエンコーダ(VAE)に基づく半教師付きフレームワークを用いて, 人工物体を異常として扱い, 検出することを提案する。
本研究では,学習した低次元潜在空間における画像データをクラスタリングし,異常な特徴を含む可能性のある画像を抽出する手法を提案する。
大規模な画像データセットに両方の手法を適用することで、人間のオペレーターが興味のある対象を特定するために、偽陽性率の低い候補異常なサンプルを提示できることを実証する。
論文 参考訳(メタデータ) (2023-06-07T23:40:04Z) - Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。
我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。
我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文 参考訳(メタデータ) (2022-12-20T09:48:24Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise
Semantic Labeling [48.30060717413166]
航空画像が与えられた場合、空中シーン解析(ASP)は、画像の各ピクセルにセマンティックラベルを割り当てることで、画像内容の意味構造を解釈する。
本稿では,Mario-AIDと呼ばれる100万件の航空画像を含む大規模シーン分類データセットを提案する。
また,古典的畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験を行い,ピクセルワイドなセマンティックラベリングを実現する。
論文 参考訳(メタデータ) (2022-01-06T07:40:47Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。