論文の概要: Mining the Benefits of Two-stage and One-stage HOI Detection
- arxiv url: http://arxiv.org/abs/2108.05077v1
- Date: Wed, 11 Aug 2021 07:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:30:12.315968
- Title: Mining the Benefits of Two-stage and One-stage HOI Detection
- Title(参考訳): 2段階および1段階のhoi検出の利点のマイニング
- Authors: Aixi Zhang, Yue Liao, Si Liu, Miao Lu, Yongliang Wang, Chen Gao,
Xiaobo Li
- Abstract要約: 2段階の手法は、数年にわたって人-物体相互作用(HOI)の検出を支配してきた。
1段階の手法は、マルチタスク学習、すなわちオブジェクト検出と相互作用分類において適切なトレードオフを行うことが困難である。
本稿では,カスケード方式で人物体検出と相互作用分類を両立させる新しい一段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.919979955155664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-stage methods have dominated Human-Object Interaction (HOI) detection for
several years. Recently, one-stage HOI detection methods have become popular.
In this paper, we aim to explore the essential pros and cons of two-stage and
one-stage methods. With this as the goal, we find that conventional two-stage
methods mainly suffer from positioning positive interactive human-object pairs,
while one-stage methods are challenging to make an appropriate trade-off on
multi-task learning, i.e., object detection, and interaction classification.
Therefore, a core problem is how to take the essence and discard the dregs from
the conventional two types of methods. To this end, we propose a novel
one-stage framework with disentangling human-object detection and interaction
classification in a cascade manner. In detail, we first design a human-object
pair generator based on a state-of-the-art one-stage HOI detector by removing
the interaction classification module or head and then design a relatively
isolated interaction classifier to classify each human-object pair. Two cascade
decoders in our proposed framework can focus on one specific task, detection or
interaction classification. In terms of the specific implementation, we adopt a
transformer-based HOI detector as our base model. The newly introduced
disentangling paradigm outperforms existing methods by a large margin, with a
significant relative mAP gain of 9.32% on HICO-Det.
- Abstract(参考訳): 2段階の手法は、数年にわたって人-物体相互作用(HOI)の検出を支配してきた。
近年,一段階HOI検出法が普及している。
本稿では,2段階法と1段階法の基本的な長所と短所を探究する。
目的として,従来の2段階の手法では,主にポジティブな対話的対象対の位置決めに苦しむのに対し,一段階の手法ではマルチタスク学習,すなわちオブジェクト検出,インタラクション分類において適切なトレードオフを行うのが困難である。
したがって、根本的問題は、従来の2種類の手法からドレグをどうやって取り除くかである。
そこで本研究では,人間-対象検出と対話分類をカスケード的に区別する,新しい一段階フレームワークを提案する。
本稿では,まず,対話分類モジュールや頭部を除去して,最先端の1段階HOI検出器をベースとしたヒューマンオブジェクトペアジェネレータを設計し,その上で,比較的分離されたインタラクション分類器を設計し,各対象ペアを分類する。
提案フレームワークの2つのカスケードデコーダは、特定のタスク、検出または相互作用の分類にフォーカスすることができる。
具体的実装に関しては,変換器を用いたHOI検出器をベースモデルとして採用する。
新たに導入されたディエンタングリングパラダイムは、HICO-Detで9.32%という大きな相対的なmAPゲインを持つ既存の手法よりも優れている。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Decoupling Object Detection from Human-Object Interaction Recognition [37.133695677465376]
DEFRは、物体の位置や人間のポーズを使わずに、画像レベルでのヒューマン・オブジェクト・インタラクション(HOI)を認識できる。
本研究では,検出不要な手法の性能向上のための2つの知見を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:01:49Z) - ACP++: Action Co-occurrence Priors for Human-Object Interaction
Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。
我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T06:02:50Z) - HOTR: End-to-End Human-Object Interaction Detection with Transformers [26.664864824357164]
そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
論文 参考訳(メタデータ) (2021-04-28T10:10:29Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z) - DIRV: Dense Interaction Region Voting for End-to-End Human-Object
Interaction Detection [53.40028068801092]
本稿では,HOI問題に対するインタラクション領域という新しい概念に基づいて,新しい一段階HOI検出手法を提案する。
従来の手法とは異なり,本手法は人-物対ごとに異なるスケールにわたる密集した相互作用領域に焦点をあてる。
単一相互作用領域の検出欠陥を補うために,我々は新しい投票戦略を導入する。
論文 参考訳(メタデータ) (2020-10-02T13:57:58Z) - Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。
我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T02:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。