論文の概要: VSGNet: Spatial Attention Network for Detecting Human Object
Interactions Using Graph Convolutions
- arxiv url: http://arxiv.org/abs/2003.05541v1
- Date: Wed, 11 Mar 2020 22:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 15:00:40.678515
- Title: VSGNet: Spatial Attention Network for Detecting Human Object
Interactions Using Graph Convolutions
- Title(参考訳): VSGNet:グラフ畳み込みを用いた人体インタラクション検出のための空間注意ネットワーク
- Authors: Oytun Ulutan, A S M Iftekhar, B.S. Manjunath
- Abstract要約: 相対的な空間的推論とオブジェクト間の構造的接続は、相互作用を分析するための重要な手段である。
提案したVisual-Spatial-Graph Network (VSGNet)アーキテクチャは、人間とオブジェクトのペアから視覚的特徴を抽出する。
VSGNetは、V-COCOでは8%または4mAP、HICO-DETでは16%または3mAPで最先端のソリューションを上回っている。
- 参考スコア(独自算出の注目度): 13.83595180218225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive visual understanding requires detection frameworks that can
effectively learn and utilize object interactions while analyzing objects
individually. This is the main objective in Human-Object Interaction (HOI)
detection task. In particular, relative spatial reasoning and structural
connections between objects are essential cues for analyzing interactions,
which is addressed by the proposed Visual-Spatial-Graph Network (VSGNet)
architecture. VSGNet extracts visual features from the human-object pairs,
refines the features with spatial configurations of the pair, and utilizes the
structural connections between the pair via graph convolutions. The performance
of VSGNet is thoroughly evaluated using the Verbs in COCO (V-COCO) and HICO-DET
datasets. Experimental results indicate that VSGNet outperforms
state-of-the-art solutions by 8% or 4 mAP in V-COCO and 16% or 3 mAP in
HICO-DET.
- Abstract(参考訳): 総合的な視覚的理解には、オブジェクトを個別に分析しながらオブジェクトの相互作用を効果的に学習し活用できる検出フレームワークが必要である。
これは、Human-Object Interaction (HOI) 検出タスクの主目的である。
特に、オブジェクト間の相対的な空間的推論と構造的接続は、視覚空間グラフネットワーク(VSGNet)アーキテクチャによって対処される相互作用を分析するための重要な手がかりである。
VSGNetは、人間とオブジェクトのペアから視覚的特徴を抽出し、ペアの空間的構成で特徴を洗練し、グラフ畳み込みを通じてペア間の構造的接続を利用する。
VSGNetの性能は、COCO(V-COCO)とHICO-DETデータセットのVerbsを用いて徹底的に評価される。
実験結果から,VSGNetはV-COCOでは8%,4mAP,HICO-DETでは16%,3mAPで,最先端のソリューションよりも優れていた。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - A Skeleton-aware Graph Convolutional Network for Human-Object
Interaction Detection [14.900704382194013]
そこで我々は,SGCN4HOIという人-物間相互作用検出のためのスケルトン対応グラフ畳み込みネットワークを提案する。
我々のネットワークは、人間のキーポイントとオブジェクトキーポイントの間の空間的接続を利用して、グラフの畳み込みによるきめ細かい構造的相互作用を捉えます。
このような幾何学的特徴と視覚的特徴と、人間と物体のペアから得られる空間的構成特徴を融合させる。
論文 参考訳(メタデータ) (2022-07-11T15:20:18Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - GTNet:Guided Transformer Network for Detecting Human-Object Interactions [10.809778265707916]
人-物間相互作用(Human-object Interaction、HOI)検出タスクは、人間を局所化し、対象を局所化し、各人-物間の相互作用を予測する。
HOIを検出するためには,相対的な空間構成やオブジェクトの意味論を利用して,画像の空間領域の空間領域を見つけることが重要である。
この問題は、自己注意に基づくガイド型トランスネットワークであるGTNetによって解決されている。
論文 参考訳(メタデータ) (2021-08-02T02:06:33Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Visual Compositional Learning for Human-Object Interaction Detection [111.05263071111807]
人間-物体相互作用(Human-Object Interaction,HOI)は、画像中の人間と物体の関係を局所化し、推測することを目的としている。
オブジェクトと動詞の型の組み合わせの膨大な数が、長い尾の分布を形成するため、これは難しい。
私たちは、この問題に効果的に対処するための、シンプルで効率的なフレームワークである、深いビジュアルコンポジション学習フレームワークを考案しました。
論文 参考訳(メタデータ) (2020-07-24T08:37:40Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。