論文の概要: ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for
Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2304.08114v1
- Date: Mon, 17 Apr 2023 09:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 15:44:50.882788
- Title: ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for
Human-Object Interaction Detection
- Title(参考訳): ViPLO:視覚変換器を用いた擬似自己ループグラフによる人体インタラクション検出
- Authors: Jeeseung Park, Jin-Woo Park, Jong-Seok Lee
- Abstract要約: 2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。
これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 20.983998911754792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection, which localizes and infers
relationships between human and objects, plays an important role in scene
understanding. Although two-stage HOI detectors have advantages of high
efficiency in training and inference, they suffer from lower performance than
one-stage methods due to the old backbone networks and the lack of
considerations for the HOI perception process of humans in the interaction
classifiers. In this paper, we propose Vision Transformer based
Pose-Conditioned Self-Loop Graph (ViPLO) to resolve these problems. First, we
propose a novel feature extraction method suitable for the Vision Transformer
backbone, called masking with overlapped area (MOA) module. The MOA module
utilizes the overlapped area between each patch and the given region in the
attention function, which addresses the quantization problem when using the
Vision Transformer backbone. In addition, we design a graph with a
pose-conditioned self-loop structure, which updates the human node encoding
with local features of human joints. This allows the classifier to focus on
specific human joints to effectively identify the type of interaction, which is
motivated by the human perception process for HOI. As a result, ViPLO achieves
the state-of-the-art results on two public benchmarks, especially obtaining a
+2.07 mAP performance gain on the HICO-DET dataset. The source codes are
available at https://github.com/Jeeseung-Park/ViPLO.
- Abstract(参考訳): 人間と物体の関係をローカライズし、推論する人物体相互作用(HOI)検出は、シーン理解において重要な役割を果たす。
2段階のHOI検出器は、トレーニングと推論において高い効率の利点があるが、古いバックボーンネットワークと相互作用分類器における人間のHOI知覚過程に対する考慮の欠如により、1段階よりも性能が低い。
本稿では,視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
まず、重なり合う領域(MOA)モジュールを用いたマスキングと呼ばれるビジョントランスフォーマーのバックボーンに適した特徴抽出手法を提案する。
MOAモジュールは、注目機能において各パッチと所定の領域間の重なり合う領域を利用し、ビジョントランスフォーマーバックボーンを使用する際の量子化問題に対処する。
さらに,人間の関節の局所的な特徴により人間のノードのエンコードを更新する,ポーズ条件付き自己ループ構造を持つグラフを設計する。
これにより、分類者は特定の人間の関節に集中して、HOIの人間の知覚プロセスによって動機付けられた相互作用のタイプを効果的に特定することができる。
結果として、ViPLOは2つの公開ベンチマーク、特にHICO-DETデータセットで+2.07 mAPパフォーマンスゲインを得るという最先端の結果を得た。
ソースコードはhttps://github.com/Jeeseung-Park/ViPLOで入手できる。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Multimodal Vision Transformers with Forced Attention for Behavior
Analysis [0.0]
本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-12-07T21:56:50Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - GTNet:Guided Transformer Network for Detecting Human-Object Interactions [10.809778265707916]
人-物間相互作用(Human-object Interaction、HOI)検出タスクは、人間を局所化し、対象を局所化し、各人-物間の相互作用を予測する。
HOIを検出するためには,相対的な空間構成やオブジェクトの意味論を利用して,画像の空間領域の空間領域を見つけることが重要である。
この問題は、自己注意に基づくガイド型トランスネットワークであるGTNetによって解決されている。
論文 参考訳(メタデータ) (2021-08-02T02:06:33Z) - Pose-based Modular Network for Human-Object Interaction Detection [5.6397911482914385]
提案するPose-based Modular Network (PMN) は,絶対的なポーズ特徴と相対的な空間的ポーズ特徴を探索し,HOI検出を改善する。
提案手法を評価するため,VS-GATと呼ばれる最新技術モデルと組み合わせ,2つの公開ベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-08-05T10:56:09Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。