論文の概要: Disentangled Pre-training for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2404.01725v1
- Date: Tue, 2 Apr 2024 08:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 17:28:41.388187
- Title: Disentangled Pre-training for Human-Object Interaction Detection
- Title(参考訳): 人間と物体の相互作用検出のための遠絡事前学習
- Authors: Zhuolong Li, Xingao Li, Changxing Ding, Xiangmin Xu,
- Abstract要約: 本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 22.653500926559833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting human-object interaction (HOI) has long been limited by the amount of supervised data available. Recent approaches address this issue by pre-training according to pseudo-labels, which align object regions with HOI triplets parsed from image captions. However, pseudo-labeling is tricky and noisy, making HOI pre-training a complex process. Therefore, we propose an efficient disentangled pre-training method for HOI detection (DP-HOI) to address this problem. First, DP-HOI utilizes object detection and action recognition datasets to pre-train the detection and interaction decoder layers, respectively. Then, we arrange these decoder layers so that the pre-training architecture is consistent with the downstream HOI detection task. This facilitates efficient knowledge transfer. Specifically, the detection decoder identifies reliable human instances in each action recognition dataset image, generates one corresponding query, and feeds it into the interaction decoder for verb classification. Next, we combine the human instance verb predictions in the same image and impose image-level supervision. The DP-HOI structure can be easily adapted to the HOI detection task, enabling effective model parameter initialization. Therefore, it significantly enhances the performance of existing HOI detection models on a broad range of rare categories. The code and pre-trained weight are available at https://github.com/xingaoli/DP-HOI.
- Abstract(参考訳): 人-物相互作用(HOI)の検出は、長い間、教師付きデータの量によって制限されてきた。
近年のアプローチでは、画像キャプションから解析したHOI三重項と対象領域を整列する擬似ラベルによる事前学習によってこの問題に対処している。
しかし、擬似ラベリングは難易度が高くうるさいため、HOIの事前学習は複雑なプロセスである。
そこで本研究では,この問題に対処するために,効率的な非拘束型事前学習法(DP-HOI)を提案する。
まず、DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、それぞれ検出と相互作用デコーダ層を事前トレーニングする。
そして、これらのデコーダ層を、トレーニング前のアーキテクチャが下流HOI検出タスクと整合するように配置する。
これは効率的な知識伝達を促進する。
具体的には、検出デコーダは、各行動認識データセット画像中の信頼性の高い人間のインスタンスを特定し、対応するクエリを1つ生成し、動詞分類のための対話デコーダにフィードする。
次に、人間の例動詞予測を同じ画像に組み合わせ、画像レベルの監督を課す。
DP-HOI構造はHOI検出タスクに容易に適応でき、効果的なモデルパラメータの初期化を可能にする。
そのため, 既存のHOI検出モデルの性能は, 広範囲の稀なカテゴリで大幅に向上する。
コードとトレーニング済みのウェイトはhttps://github.com/xingaoli/DP-HOI.comで公開されている。
関連論文リスト
- UnionDet: Union-Level Detector Towards Real-Time Human-Object
Interaction Detection [35.2385914946471]
本稿では,新しい結合レベル検出器を用いたHOI検出のための一段階メタアーキテクチャを提案する。
ヒトと物体の相互作用の1段階検出器は、相互作用予測時間4x14xを著しく減少させる。
論文 参考訳(メタデータ) (2023-12-19T23:34:43Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Label-Free Synthetic Pretraining of Object Detectors [67.17371526567325]
そこで本稿では,SOLID(Synthetic Optimization layout with Instance Detection)という新しい手法を提案する。
筆者らのSOLIDアプローチは,(1)シーンアレンジメントを最適化した非ラベルの3Dモデルを用いた合成画像の生成,(2)"インスタンス検出"タスクにおけるオブジェクト検出の事前学習,の2つの主要コンポーネントから構成される。
当社のアプローチでは,事前学習のためのセマンティックラベルは必要とせず,任意の3Dモデルを使用することが可能である。
論文 参考訳(メタデータ) (2022-08-08T16:55:17Z) - Consistency Learning via Decoding Path Augmentation for Transformers in
Human Object Interaction Detection [11.928724924319138]
変換器のHOI検出を改善するために,クロスパス整合性学習(CPC)を提案する。
提案手法の有効性を実証し, V-COCO, HICO-DETを改良した。
論文 参考訳(メタデータ) (2022-04-11T02:45:00Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Decoupling Object Detection from Human-Object Interaction Recognition [37.133695677465376]
DEFRは、物体の位置や人間のポーズを使わずに、画像レベルでのヒューマン・オブジェクト・インタラクション(HOI)を認識できる。
本研究では,検出不要な手法の性能向上のための2つの知見を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:01:49Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - HOTR: End-to-End Human-Object Interaction Detection with Transformers [26.664864824357164]
そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
論文 参考訳(メタデータ) (2021-04-28T10:10:29Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。