論文の概要: GEN-VLKT: Simplify Association and Enhance Interaction Understanding for
HOI Detection
- arxiv url: http://arxiv.org/abs/2203.13954v1
- Date: Sat, 26 Mar 2022 01:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 13:10:01.639258
- Title: GEN-VLKT: Simplify Association and Enhance Interaction Understanding for
HOI Detection
- Title(参考訳): GEN-VLKT:HOI検出のための結合とエンハンス相互作用理解の簡易化
- Authors: Yue Liao, Aixi Zhang, Miao Lu, Yongliang Wang, Xiaobo Li, Si Liu
- Abstract要約: 本稿では,2分岐パイプラインをポストマッチングなしで実現するためのガイド埋め込みネットワーク(GEN)を提案する。
協会にとって、以前の2枝の手法は複雑でコストのかかるポストマッチングに悩まされる。
相互作用理解のために、従来の手法は長い尾の分布とゼロショット発見に悩まされていた。
- 参考スコア(独自算出の注目度): 17.92210977820113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Human-Object Interaction~(HOI) detection could be divided into
two core problems, i.e., human-object association and interaction
understanding. In this paper, we reveal and address the disadvantages of the
conventional query-driven HOI detectors from the two aspects. For the
association, previous two-branch methods suffer from complex and costly
post-matching, while single-branch methods ignore the features distinction in
different tasks. We propose Guided-Embedding Network~(GEN) to attain a
two-branch pipeline without post-matching. In GEN, we design an instance
decoder to detect humans and objects with two independent query sets and a
position Guided Embedding~(p-GE) to mark the human and object in the same
position as a pair. Besides, we design an interaction decoder to classify
interactions, where the interaction queries are made of instance Guided
Embeddings (i-GE) generated from the outputs of each instance decoder layer.
For the interaction understanding, previous methods suffer from long-tailed
distribution and zero-shot discovery. This paper proposes a Visual-Linguistic
Knowledge Transfer (VLKT) training strategy to enhance interaction
understanding by transferring knowledge from a visual-linguistic pre-trained
model CLIP. In specific, we extract text embeddings for all labels with CLIP to
initialize the classifier and adopt a mimic loss to minimize the visual feature
distance between GEN and CLIP. As a result, GEN-VLKT outperforms the state of
the art by large margins on multiple datasets, e.g., +5.05 mAP on HICO-Det. The
source codes are available at https://github.com/YueLiao/gen-vlkt.
- Abstract(参考訳): 人-物間相互作用(HOI)検出の課題は、人間-物間相互作用と相互作用理解という2つの中核的な問題に分けられる。
本稿では,従来のクエリ駆動型HOI検出器の欠点を2つの側面から明らかにし,対処する。
この関係では、従来の2分岐法は複雑でコストのかかる後マッチングに苦しむが、単一分岐法は異なるタスクで特徴の区別を無視する。
本稿では,2分岐パイプラインをポストマッチングなしで実現するためのガイド埋め込みネットワーク~(GEN)を提案する。
GENでは、2つの独立したクエリセットを持つ人間とオブジェクトを検出するインスタンスデコーダと、人間とオブジェクトをペアと同じ位置にマークするためのガイド付き埋め込み(p-GE)を設計する。
さらに、インタラクションクエリは、各インスタンスデコーダ層の出力から生成されたインスタンス誘導埋め込み(i-ge)で構成されている、インタラクションを分類するためにインタラクションデコーダを設計する。
相互作用理解のために、従来の手法は長い尾の分布とゼロショット発見に悩まされていた。
本稿では,視覚言語事前学習モデルCLIPから知識を伝達することで,対話理解を高めるための視覚言語的知識伝達(VLKT)トレーニング戦略を提案する。
具体的には、CLIPで全てのラベルのテキスト埋め込みを抽出し、分類器を初期化し、擬似損失を採用し、GENとCLIPの視覚的特徴距離を最小化する。
その結果、GEN-VLKTはHICO-Det上の+5.05 mAPのような複数のデータセットで大きなマージンで芸術の状態を上回ります。
ソースコードはhttps://github.com/yueliao/gen-vlktで入手できる。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-02T08:21:16Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - Human-Object Interaction Detection via Disentangled Transformer [63.46358684341105]
本稿では,2つのサブタスクの学習を容易にするために,エンコーダとデコーダの両方をアンタングル化するDisentangled Transformerを提案する。
提案手法は,2つの公開HOIベンチマークにおいて,従来よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2022-04-20T08:15:04Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - HOTR: End-to-End Human-Object Interaction Detection with Transformers [26.664864824357164]
そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
論文 参考訳(メタデータ) (2021-04-28T10:10:29Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。