論文の概要: ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection
- arxiv url: http://arxiv.org/abs/2008.06254v4
- Date: Sun, 27 Mar 2022 07:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:30:06.520060
- Title: ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection
- Title(参考訳): ConsNet: ゼロショットヒューマンオブジェクトインタラクション検出のための学習一貫性グラフ
- Authors: Ye Liu, Junsong Yuan, Chang Wen Chen
- Abstract要約: 画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
- 参考スコア(独自算出の注目度): 101.56529337489417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of Human-Object Interaction (HOI) Detection, which
aims to locate and recognize HOI instances in the form of <human, action,
object> in images. Most existing works treat HOIs as individual interaction
categories, thus can not handle the problem of long-tail distribution and
polysemy of action labels. We argue that multi-level consistencies among
objects, actions and interactions are strong cues for generating semantic
representations of rare or previously unseen HOIs. Leveraging the compositional
and relational peculiarities of HOI labels, we propose ConsNet, a
knowledge-aware framework that explicitly encodes the relations among objects,
actions and interactions into an undirected graph called consistency graph, and
exploits Graph Attention Networks (GATs) to propagate knowledge among HOI
categories as well as their constituents. Our model takes visual features of
candidate human-object pairs and word embeddings of HOI labels as inputs, maps
them into visual-semantic joint embedding space and obtains detection results
by measuring their similarities. We extensively evaluate our model on the
challenging V-COCO and HICO-DET datasets, and results validate that our
approach outperforms state-of-the-arts under both fully-supervised and
zero-shot settings. Code is available at https://github.com/yeliudev/ConsNet.
- Abstract(参考訳): 画像中のHuman, Action, Object>の形でHOIインスタンスを検出し,認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題を検討する。
既存の作品の多くはhoisを個々の相互作用カテゴリとして扱うため、ロングテール分布やアクションラベルのポリセミーの問題を扱えない。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成する強力な手がかりであると主張している。
HOIラベルの合成および関係性を利用したConsNetを提案する。これは、オブジェクト間の関係を、一貫性グラフと呼ばれる非指向グラフに明示的にエンコードし、グラフ注意ネットワーク(GAT)を利用して、HOIカテゴリとそれらの構成要素間の知識を伝播する。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
V-COCO と HICO-DET データセットの課題に対して,我々のモデルを広範囲に評価し,本手法が完全教師付きおよびゼロショット設定の両方で最先端技術を上回ることを検証した。
コードはhttps://github.com/yeliudev/ConsNetで入手できる。
関連論文リスト
- Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Zero-Shot Human-Object Interaction Recognition via Affordance Graphs [3.867143522757309]
ゼロショットヒューマンオブジェクトインタラクション認識のための新しいアプローチを提案する。
提案手法では,画像コンテンツ以外の知識をグラフ形式で活用する。
提案手法をいくつかのデータセットで評価し,現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-02T13:14:44Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Visual-Semantic Graph Attention Networks for Human-Object Interaction
Detection [6.161066669674775]
Human-Object Interaction (HOI) Detections infers the action predicate on a human, predicate, object> triplet。
本稿では,グラフネットワークを通じて得られる補助関係の曖昧な貢献について検討する。
本研究では,視覚的,空間的,意味的な情報を効果的に集約するデュアルグラフアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-07T22:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。