論文の概要: Decoupling Object Detection from Human-Object Interaction Recognition
- arxiv url: http://arxiv.org/abs/2112.06392v1
- Date: Mon, 13 Dec 2021 03:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 17:07:35.452367
- Title: Decoupling Object Detection from Human-Object Interaction Recognition
- Title(参考訳): 物体間相互作用認識による物体検出の分離
- Authors: Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Lin Liang,
Jenq-Neng Hwang, Zicheng Liu
- Abstract要約: DEFRは、物体の位置や人間のポーズを使わずに、画像レベルでのヒューマン・オブジェクト・インタラクション(HOI)を認識できる。
本研究では,検出不要な手法の性能向上のための2つの知見を提案する。
- 参考スコア(独自算出の注目度): 37.133695677465376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DEFR, a DEtection-FRee method to recognize Human-Object
Interactions (HOI) at image level without using object location or human pose.
This is challenging as the detector is an integral part of existing methods. In
this paper, we propose two findings to boost the performance of the
detection-free approach, which significantly outperforms the detection-assisted
state of the arts. Firstly, we find it crucial to effectively leverage the
semantic correlations among HOI classes. Remarkable gain can be achieved by
using language embeddings of HOI labels to initialize the linear classifier,
which encodes the structure of HOIs to guide training. Further, we propose
Log-Sum-Exp Sign (LSE-Sign) loss to facilitate multi-label learning on a
long-tailed dataset by balancing gradients over all classes in a softmax
format. Our detection-free approach achieves 65.6 mAP in HOI classification on
HICO, outperforming the detection-assisted state of the art (SOTA) by 18.5 mAP,
and 52.7 mAP in one-shot classes, surpassing the SOTA by 27.3 mAP. Different
from previous work, our classification model (DEFR) can be directly used in HOI
detection without any additional training, by connecting to an off-the-shelf
object detector whose bounding box output is converted to binary masks for
DEFR. Surprisingly, such a simple connection of two decoupled models achieves
SOTA performance (32.35 mAP).
- Abstract(参考訳): 物体の位置や人間のポーズを使わずに、画像レベルでの人間と物体の相互作用(HOI)を識別するDefrection-FRee法を提案する。
検出器が既存の方法の不可欠な部分であるため、これは難しい。
本稿では,検出不要な手法の性能を高めるための2つの知見を提案する。
まず,HOIクラス間の意味的相関を効果的に活用することが重要である。
HOIラベルの言語埋め込みを使用して線形分類器を初期化することで、HOIの構造を符号化してトレーニングをガイドすることで、顕著な利益を得ることができる。
さらに,全クラスの勾配をソフトマックス形式でバランスさせることにより,ロングテールデータセットにおけるマルチラベル学習を容易にするために,log-sum-exp sign (lse-sign)ロスを提案する。
HICOのHOI分類では65.6mAP,SOTAでは18.5mAP,単発では52.7mAP,SOTAでは27.3mAPを上回った。
我々の分類モデル(DEFR)は,従来と異なり,境界ボックス出力をDEFR用バイナリマスクに変換するオフザシェルフ物体検出器に接続することにより,HOI検出において追加の訓練を伴わずに直接使用することができる。
驚いたことに、このような2つの分離されたモデルの単純な接続はSOTA性能(32.35 mAP)を達成する。
関連論文リスト
- Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-02T08:21:16Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - G-DetKD: Towards General Distillation Framework for Object Detectors via
Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。
また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。
本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-08-17T07:44:27Z) - Mining the Benefits of Two-stage and One-stage HOI Detection [26.919979955155664]
2段階の手法は、数年にわたって人-物体相互作用(HOI)の検出を支配してきた。
1段階の手法は、マルチタスク学習、すなわちオブジェクト検出と相互作用分類において適切なトレードオフを行うことが困難である。
本稿では,カスケード方式で人物体検出と相互作用分類を両立させる新しい一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T07:38:09Z) - Is Object Detection Necessary for Human-Object Interaction Recognition? [37.61038047282247]
本稿では、物体の位置と人間のポーズの監督を使わずに、画像レベルでの人間と物体の相互作用(HOI)認識を再考する。
既存の検出教師付きアプローチとは対照的に,検出不要なHOI認識と命名する。
論文 参考訳(メタデータ) (2021-07-27T21:15:00Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。