論文の概要: A Graph-based Interactive Reasoning for Human-Object Interaction
Detection
- arxiv url: http://arxiv.org/abs/2007.06925v1
- Date: Tue, 14 Jul 2020 09:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:52:10.517575
- Title: A Graph-based Interactive Reasoning for Human-Object Interaction
Detection
- Title(参考訳): 人-物体相互作用検出のためのグラフに基づく対話型推論
- Authors: Dongming Yang and Yuexian Zou
- Abstract要約: 本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
- 参考スコア(独自算出の注目度): 71.50535113279551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection devotes to learn how humans interact
with surrounding objects via inferring triplets of < human, verb, object >.
However, recent HOI detection methods mostly rely on additional annotations
(e.g., human pose) and neglect powerful interactive reasoning beyond
convolutions. In this paper, we present a novel graph-based interactive
reasoning model called Interactive Graph (abbr. in-Graph) to infer HOIs, in
which interactive semantics implied among visual targets are efficiently
exploited. The proposed model consists of a project function that maps related
targets from convolution space to a graph-based semantic space, a message
passing process propagating semantics among all nodes and an update function
transforming the reasoned nodes back to convolution space. Furthermore, we
construct a new framework to assemble in-Graph models for detecting HOIs,
namely in-GraphNet. Beyond inferring HOIs using instance features respectively,
the framework dynamically parses pairwise interactive semantics among visual
targets by integrating two-level in-Graphs, i.e., scene-wide and instance-wide
in-Graphs. Our framework is end-to-end trainable and free from costly
annotations like human pose. Extensive experiments show that our proposed
framework outperforms existing HOI detection methods on both V-COCO and
HICO-DET benchmarks and improves the baseline about 9.4% and 15% relatively,
validating its efficacy in detecting HOIs.
- Abstract(参考訳): 人間-物体相互作用(Human-Object Interaction, HOI)検出は,<人,動詞,オブジェクト>の推論によって,人間が周囲の物体とどのように相互作用するかを学ぶ。
しかし、最近のhoi検出手法は、主に追加のアノテーション(人間のポーズなど)と、畳み込みを超えて強力な対話的推論を無視する。
本稿では,対話型意味論を視覚的対象に対して効果的に活用する,インタラクティブグラフ(in-Graph)と呼ばれる新しいグラフベースの対話型推論モデルを提案する。
提案モデルは,コンボリューション空間からグラフベースのセマンティック空間へ関連ターゲットをマッピングするプロジェクト関数と,すべてのノード間のセマンティクスを伝播するメッセージパッシングプロセスと,理由付けられたノードを畳み込み空間に変換する更新関数とから構成される。
さらに,新たなフレームワークを構築して,HOI,すなわち-GraphNetを検出する。
このフレームワークは、それぞれインスタンス機能を使用してHOIを推論する以外に、2レベルイングラフ、すなわちシーンワイドとインスタンスワイドイングラフを統合することで、視覚的ターゲット間のペアワイズなセマンティクスを動的に解析する。
私たちのフレームワークはエンドツーエンドでトレーニング可能で、人間のポーズのような高価なアノテーションは不要です。
V-COCOとHICO-DETのベンチマークにおいて,提案手法が既存のHOI検出法より優れ,ベースラインが約9.4%,15%向上し,HOI検出の有効性が検証された。
関連論文リスト
- Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-07T07:26:06Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - Zero-Shot Human-Object Interaction Recognition via Affordance Graphs [3.867143522757309]
ゼロショットヒューマンオブジェクトインタラクション認識のための新しいアプローチを提案する。
提案手法では,画像コンテンツ以外の知識をグラフ形式で活用する。
提案手法をいくつかのデータセットで評価し,現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-02T13:14:44Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。