論文の概要: Bridging the Gap Between Object Detection and User Intent via
Query-Modulation
- arxiv url: http://arxiv.org/abs/2106.10258v1
- Date: Fri, 18 Jun 2021 17:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:24:16.141567
- Title: Bridging the Gap Between Object Detection and User Intent via
Query-Modulation
- Title(参考訳): クエリ変調によるオブジェクト検出とユーザインテント間のギャップのブリッジ
- Authors: Marco Fornoni, Chaochao Yan, Liangchen Luo, Kimberly Wilber, Alex
Stark, Yin Cui, Boqing Gong, Andrew Howard
- Abstract要約: クエリ変調検出器は、興味のあるラベルのオブジェクトを検出するのに優れた性能を示す。
クエリ変調検出と標準オブジェクト検出の両方を解決するために、同時にトレーニングすることもできる。
- 参考スコア(独自算出の注目度): 33.967176965675264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When interacting with objects through cameras, or pictures, users often have
a specific intent. For example, they may want to perform a visual search.
However, most object detection models ignore the user intent, relying on image
pixels as their only input. This often leads to incorrect results, such as lack
of a high-confidence detection on the object of interest, or detection with a
wrong class label. In this paper we investigate techniques to modulate standard
object detectors to explicitly account for the user intent, expressed as an
embedding of a simple query. Compared to standard object detectors,
query-modulated detectors show superior performance at detecting objects for a
given label of interest. Thanks to large-scale training data synthesized from
standard object detection annotations, query-modulated detectors can also
outperform specialized referring expression recognition systems. Furthermore,
they can be simultaneously trained to solve for both query-modulated detection
and standard object detection.
- Abstract(参考訳): カメラや写真を通してオブジェクトと対話する場合、ユーザーは特定の意図を持つことが多い。
例えば、彼らはビジュアル検索を実行したいかもしれない。
しかし、ほとんどのオブジェクト検出モデルは、イメージピクセルのみを入力として、ユーザの意図を無視している。
これはしばしば、関心対象に対する高信頼度検出の欠如や、間違ったクラスラベルによる検出など、誤った結果につながる。
本稿では,単純なクエリの埋め込みとして表現されたユーザ意図を明示的に説明するために,標準オブジェクト検出器を変調する手法を検討する。
標準オブジェクト検出器と比較して、クエリ変調検出器は、特定のラベルのオブジェクトを検出するのに優れた性能を示す。
標準オブジェクト検出アノテーションから合成された大規模トレーニングデータのおかげで、クエリ修飾検出器は特別な参照表現認識システムを上回ることができる。
さらに、クエリ修飾検出と標準オブジェクト検出の両方を解決するために同時にトレーニングすることができる。
関連論文リスト
- Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Detect Only What You Specify : Object Detection with Linguistic Target [0.0]
本稿では,最近提案されたTransformer-based Detectorに基づくターゲット検出のためのLanguage-Targeted Detector (LTD)を提案する。
LTDはエンコーダ・デコーダアーキテクチャであり,条件付きデコーダにより,テキスト入力を言語文脈として,符号化された画像について推論することができる。
論文 参考訳(メタデータ) (2022-11-18T07:28:47Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z) - Self-supervised object detection from audio-visual correspondence [101.46794879729453]
我々は、監視なしで物体検出器を学習する問題に取り組む。
画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。
本研究では,航空機やネコなどの機器以外のジェネリック物体の検出を学習できることを示した。
論文 参考訳(メタデータ) (2021-04-13T17:59:03Z) - Class-agnostic Object Detection [16.97782147401037]
本稿では,オブジェクトのクラスに関係なくオブジェクトを検出することに焦点を当てた新しい問題として,クラスに依存しないオブジェクト検出を提案する。
具体的には、イメージ内のすべてのオブジェクトのバウンディングボックスを予測することであり、オブジェクトクラスではない。
本稿では,この領域における今後の研究を進めるために,クラス非依存検出器のベンチマークのためのトレーニングおよび評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-28T19:22:38Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z) - Few-shot Object Detection with Self-adaptive Attention Network for
Remote Sensing Images [11.938537194408669]
本報告では, ごく一部の例で提供される新しい物体を検出するために設計された, 数発の物体検出器を提案する。
対象物検出設定に適合するため,本提案では,全画像ではなく対象物レベルの関係に焦点を合わせている。
本実験は, 撮影シーンにおける提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2020-09-26T13:44:58Z) - Few-shot Object Detection with Feature Attention Highlight Module in
Remote Sensing Images [10.92844145381214]
本報告では, ごく少数の例に基づいて, 新規な物体を検出するために設計された, 数発の物体検出器を提案する。
我々のモデルは、特徴抽出器、特徴強調強調モジュール、および2段階検出バックエンドで構成されている。
提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-09-03T12:38:49Z) - Black-box Explanation of Object Detectors via Saliency Maps [66.745167677293]
対象検出器の予測のための視覚的説明を生成するD-RISEを提案する。
本稿では, YOLOv3などの1段検出器やFaster-RCNNのような2段検出器など, 異なる対象検出器に容易にD-RISEを適用可能であることを示す。
論文 参考訳(メタデータ) (2020-06-05T02:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。