論文の概要: Detect Only What You Specify : Object Detection with Linguistic Target
- arxiv url: http://arxiv.org/abs/2211.11572v1
- Date: Fri, 18 Nov 2022 07:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:15:43.872340
- Title: Detect Only What You Specify : Object Detection with Linguistic Target
- Title(参考訳): 指定するもののみを検出する : 言語目標を用いた物体検出
- Authors: Moyuru Yamada
- Abstract要約: 本稿では,最近提案されたTransformer-based Detectorに基づくターゲット検出のためのLanguage-Targeted Detector (LTD)を提案する。
LTDはエンコーダ・デコーダアーキテクチャであり,条件付きデコーダにより,テキスト入力を言語文脈として,符号化された画像について推論することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection is a computer vision task of predicting a set of bounding
boxes and category labels for each object of interest in a given image. The
category is related to a linguistic symbol such as 'dog' or 'person' and there
should be relationships among them. However the object detector only learns to
classify the categories and does not treat them as the linguistic symbols.
Multi-modal models often use the pre-trained object detector to extract object
features from the image, but the models are separated from the detector and the
extracted visual features does not change with their linguistic input. We
rethink the object detection as a vision-and-language reasoning task. We then
propose targeted detection task, where detection targets are given by a natural
language and the goal of the task is to detect only all the target objects in a
given image. There are no detection if the target is not given. Commonly used
modern object detectors have many hand-designed components like anchor and it
is difficult to fuse the textual inputs into the complex pipeline. We thus
propose Language-Targeted Detector (LTD) for the targeted detection based on a
recently proposed Transformer-based detector. LTD is a encoder-decoder
architecture and our conditional decoder allows the model to reason about the
encoded image with the textual input as the linguistic context. We evaluate
detection performances of LTD on COCO object detection dataset and also show
that our model improves the detection results with the textual input grounding
to the visual object.
- Abstract(参考訳): オブジェクト検出(Object Detection)は、ある画像に対する各対象に対する境界ボックスとカテゴリラベルのセットを予測するコンピュータビジョンタスクである。
このカテゴリーは「犬」や「人」といった言語記号と関連しており、それらの間に関係があるべきである。
しかし、対象検出器はカテゴリを分類することしか学ばず、言語記号として扱うことはない。
マルチモーダルモデルは、訓練済みの物体検出器を用いて画像から物体の特徴を抽出するが、モデルは検出器から分離され、抽出された視覚的特徴は言語的な入力で変化しない。
物体検出を視覚言語推論タスクとして再考する。
次に,自然言語によって検出対象が与えられ,そのタスクの目標は,与えられた画像中のすべての対象オブジェクトのみを検出することである。
目標が与えられない場合は検出されない。
一般的に使われる現代の物体検出器にはアンカーのような多くの手設計のコンポーネントがあり、複雑なパイプラインにテキスト入力を融合させることは困難である。
そこで我々は,最近提案されたTransformer-based Detectorに基づいて,ターゲット検出のためのLanguage-Targeted Detector (LTD)を提案する。
ltdはエンコーダ-デコーダアーキテクチャであり、我々の条件付きデコーダは、テキスト入力を言語コンテキストとして、エンコーダイメージを推論することができる。
我々は,COCOオブジェクト検出データセット上でのLTDの検出性能を評価し,視覚オブジェクトへのテキスト入力による検出結果の改善を示す。
関連論文リスト
- Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Bridging the Gap Between Object Detection and User Intent via
Query-Modulation [33.967176965675264]
クエリ変調検出器は、興味のあるラベルのオブジェクトを検出するのに優れた性能を示す。
クエリ変調検出と標準オブジェクト検出の両方を解決するために、同時にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-06-18T17:47:53Z) - Self-supervised object detection from audio-visual correspondence [101.46794879729453]
我々は、監視なしで物体検出器を学習する問題に取り組む。
画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。
本研究では,航空機やネコなどの機器以外のジェネリック物体の検出を学習できることを示した。
論文 参考訳(メタデータ) (2021-04-13T17:59:03Z) - Class-agnostic Object Detection [16.97782147401037]
本稿では,オブジェクトのクラスに関係なくオブジェクトを検出することに焦点を当てた新しい問題として,クラスに依存しないオブジェクト検出を提案する。
具体的には、イメージ内のすべてのオブジェクトのバウンディングボックスを予測することであり、オブジェクトクラスではない。
本稿では,この領域における今後の研究を進めるために,クラス非依存検出器のベンチマークのためのトレーニングおよび評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-28T19:22:38Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Black-box Explanation of Object Detectors via Saliency Maps [66.745167677293]
対象検出器の予測のための視覚的説明を生成するD-RISEを提案する。
本稿では, YOLOv3などの1段検出器やFaster-RCNNのような2段検出器など, 異なる対象検出器に容易にD-RISEを適用可能であることを示す。
論文 参考訳(メタデータ) (2020-06-05T02:13:35Z) - Detective: An Attentive Recurrent Model for Sparse Object Detection [25.5804429439316]
ディテクティヴ(英: Detective)は、画像中の物体を連続的に識別する注意オブジェクト検出器である。
Detectiveはスパースオブジェクト検出器で、オブジェクトインスタンス毎に単一のバウンディングボックスを生成する。
ハンガリーのアルゴリズムに基づく学習機構と,局所化と分類タスクのバランスをとる損失を提案する。
論文 参考訳(メタデータ) (2020-04-25T17:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。