論文の概要: Towards Hard-Positive Query Mining for DETR-based Human-Object
Interaction Detection
- arxiv url: http://arxiv.org/abs/2207.05293v1
- Date: Tue, 12 Jul 2022 04:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:51:14.516400
- Title: Towards Hard-Positive Query Mining for DETR-based Human-Object
Interaction Detection
- Title(参考訳): DETRに基づくヒューマン・オブジェクト・インタラクション検出のためのハード・ポジティヴ・クエリマイニングに向けて
- Authors: Xubin Zhong, Changxing Ding, Zijian Li, and Shaoli Huang
- Abstract要約: ヒューマンオブジェクトインタラクション(HOI)検出は、高レベル画像理解のコアタスクである。
本稿では、ハード陽性クエリをマイニングすることで、検出変換器(DETR)ベースのHOI検出器を強化することを提案する。
実験の結果,提案手法は既存のDETRベースのHOI検出器に広く適用可能であることがわかった。
- 参考スコア(独自算出の注目度): 20.809479387186506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection is a core task for high-level image
understanding. Recently, Detection Transformer (DETR)-based HOI detectors have
become popular due to their superior performance and efficient structure.
However, these approaches typically adopt fixed HOI queries for all testing
images, which is vulnerable to the location change of objects in one specific
image. Accordingly, in this paper, we propose to enhance DETR's robustness by
mining hard-positive queries, which are forced to make correct predictions
using partial visual cues. First, we explicitly compose hard-positive queries
according to the ground-truth (GT) position of labeled human-object pairs for
each training image. Specifically, we shift the GT bounding boxes of each
labeled human-object pair so that the shifted boxes cover only a certain
portion of the GT ones. We encode the coordinates of the shifted boxes for each
labeled human-object pair into an HOI query. Second, we implicitly construct
another set of hard-positive queries by masking the top scores in
cross-attention maps of the decoder layers. The masked attention maps then only
cover partial important cues for HOI predictions. Finally, an alternate
strategy is proposed that efficiently combines both types of hard queries. In
each iteration, both DETR's learnable queries and one selected type of
hard-positive queries are adopted for loss computation. Experimental results
show that our proposed approach can be widely applied to existing DETR-based
HOI detectors. Moreover, we consistently achieve state-of-the-art performance
on three benchmarks: HICO-DET, V-COCO, and HOI-A. Code is available at
https://github.com/MuchHair/HQM.
- Abstract(参考訳): ヒューマンオブジェクトインタラクション(HOI)検出は、高レベル画像理解のコアタスクである。
近年,検出変換器(DETR)を用いたHOI検出器の高性能化と効率的な構造が注目されている。
しかし、これらのアプローチは通常、特定の画像内のオブジェクトの位置変更に弱い全てのテスト画像に対して固定されたhoiクエリを採用する。
そこで,本稿では,部分的な視覚的手がかりを用いて正確な予測を迫られるハード陽性クエリをマイニングすることで,DETRのロバスト性を高めることを提案する。
まず,各トレーニング画像に対して,ラベル付き人間オブジェクトペアのグラウンドトゥルース(GT)位置に応じて,ハード陽性クエリを明示的に構成する。
具体的には、ラベル付き人間オブジェクトペアのGTバウンディングボックスを、シフトしたボックスがGTボックスの一部だけをカバーするようにシフトする。
各ラベル付き人間とオブジェクトのペアのシフトボックスの座標をhoiクエリにエンコードする。
第二に、デコーダ層の交差アテンションマップでトップスコアをマスキングすることで、別のハード陽性クエリを暗黙的に構築する。
マスク付きアテンションマップはHOI予測のための部分的な重要な手がかりのみをカバーする。
最後に,両タイプのハードクエリを効率的に組み合わせた代替戦略を提案する。
各繰り返しにおいて、DeTRの学習可能なクエリと選択された1種類のハード陽性クエリが損失計算に採用されている。
実験の結果,提案手法は既存のDETRベースのHOI検出器に広く適用可能であることがわかった。
さらに, HICO-DET, V-COCO, HOI-Aの3つのベンチマークにおいて, 最先端性能を継続的に達成する。
コードはhttps://github.com/MuchHair/HQM.comで入手できる。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - SEED: A Simple and Effective 3D DETR in Point Clouds [72.74016394325675]
ポイントクラウドの分散度が高く,不均一な分布のため,主な課題は困難である,と我々は主張する。
点雲から3次元物体を検出するための簡便で効果的な3次元DETR法(SEED)を提案する。
論文 参考訳(メタデータ) (2024-07-15T14:21:07Z) - Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-02T08:21:16Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - DETR with Additional Global Aggregation for Cross-domain Weakly
Supervised Object Detection [34.14603473160207]
本稿では,クロスドメイン弱教師付き物体検出(CDWSOD)のためのDETRに基づく手法を提案する。
我々は、DETR のエンコーダとデコーダはどちらもアテンション機構に基づいており、CDWSOD の可能性が強いと考えている。
集約結果、すなわち画像レベルの予測は、ドメインアライメントの弱い監督を自然に利用することができる。
論文 参考訳(メタデータ) (2023-04-14T12:16:42Z) - Query-based Hard-Image Retrieval for Object Detection at Test Time [10.63460618121976]
問合せに基づくハードイメージ検索タスクとして「ハード」な画像を見つけるという問題を再考する。
我々の手法は完全にポストホックであり、地平線アノテーションは必要とせず、効率的なモンテカルロ推定に依存している。
我々は、広く使われているRetinaNet、Faster-RCNN、Mask-RCNN、Cascade Mask-RCNNオブジェクト検出器を用いて、ランキングと分類タスクの結果を提供する。
論文 参考訳(メタデータ) (2022-09-23T12:33:31Z) - Salient Object Ranking with Position-Preserved Attention [44.94722064885407]
本研究では,検出対象のランク付け順序を視覚的サリエンシに応じて割り当てるSOR(Salient Object Ranking)タスクについて検討する。
本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。
また、SORブランチ用に調整されたPPAモジュールも導入する。
論文 参考訳(メタデータ) (2021-06-09T13:00:05Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。