論文の概要: Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection
- arxiv url: http://arxiv.org/abs/2311.01755v1
- Date: Fri, 3 Nov 2023 07:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:01:32.395504
- Title: Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection
- Title(参考訳): シーングラフ生成とヒューマン・オブジェクトインタラクション検出のための統一トランスフォーマーベースフレームワークに向けて
- Authors: Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li
- Abstract要約: 本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
- 参考スコア(独自算出の注目度): 116.21529970404653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene graph generation (SGG) and human-object interaction (HOI) detection are
two important visual tasks aiming at localising and recognising relationships
between objects, and interactions between humans and objects, respectively.
Prevailing works treat these tasks as distinct tasks, leading to the
development of task-specific models tailored to individual datasets. However,
we posit that the presence of visual relationships can furnish crucial
contextual and intricate relational cues that significantly augment the
inference of human-object interactions. This motivates us to think if there is
a natural intrinsic relationship between the two tasks, where scene graphs can
serve as a source for inferring human-object interactions. In light of this, we
introduce SG2HOI+, a unified one-step model based on the Transformer
architecture. Our approach employs two interactive hierarchical Transformers to
seamlessly unify the tasks of SGG and HOI detection. Concretely, we initiate a
relation Transformer tasked with generating relation triples from a suite of
visual features. Subsequently, we employ another transformer-based decoder to
predict human-object interactions based on the generated relation triples. A
comprehensive series of experiments conducted across established benchmark
datasets including Visual Genome, V-COCO, and HICO-DET demonstrates the
compelling performance of our SG2HOI+ model in comparison to prevalent
one-stage SGG models. Remarkably, our approach achieves competitive performance
when compared to state-of-the-art HOI methods. Additionally, we observe that
our SG2HOI+ jointly trained on both SGG and HOI tasks in an end-to-end manner
yields substantial improvements for both tasks compared to individualized
training paradigms.
- Abstract(参考訳): SGG(Scene graph generation)とHOI(Human-object Interaction)は、オブジェクト間の関係のローカライズと認識を目的とした2つの重要な視覚的タスクである。
一般的な作業はこれらのタスクを個別のタスクとして扱い、個々のデータセットに合わせたタスク固有のモデルの開発につながる。
しかし、視覚的な関係性の存在は、人間と対象の相互作用の推論を著しく強化する重要な文脈的かつ複雑な関係的手がかりとなると仮定する。
このことは、シーングラフが人間と物体の相互作用を推測する情報源となる2つのタスクの間に自然に固有の関係があるかどうかを考える動機となる。
そこで本研究では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
具体的には,一組の視覚特徴から関係トリプルを生成する作業を行う関係トランスフォーマを起動する。
次に, 変換器を用いたデコーダを用いて, 生成した三重項に基づく人間と物体の相互作用を予測する。
Visual Genome、V-COCO、HICO-DETなど、確立されたベンチマークデータセット間で行われた包括的な実験は、一般的な一段階SGGモデルと比較して、我々のSG2HOI+モデルの魅力的な性能を示している。
注目すべきことに,本手法は最先端のHOI手法と比較して競争性能が向上する。
さらに,我々のSG2HOI+は,SGGとHOIの両タスクをエンドツーエンドで共同訓練することで,個別化学習パラダイムと比較して,両タスクの大幅な改善が期待できる。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Learning Mutual Excitation for Hand-to-Hand and Human-to-Human
Interaction Recognition [22.538114033191313]
相互励起グラフ畳み込み層を積み重ねた相互励起グラフ畳み込みネットワーク(me-GCN)を提案する。
Me-GCは各レイヤとグラフ畳み込み操作の各ステージで相互情報を学習する。
提案するme-GCは,最先端GCN法およびTransformer法より優れている。
論文 参考訳(メタデータ) (2024-02-04T10:00:00Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - IGFormer: Interaction Graph Transformer for Skeleton-based Human
Interaction Recognition [26.05948629634753]
骨格に基づく対話認識のための新しい対話グラフ変換器 (IGFormer) ネットワークを提案する。
IGFormerは、対話体部分間の意味的および距離的相関に基づいて相互作用グラフを構築する。
また,ヒトの骨格配列をBody-Part-Time配列に変換するセマンティック分割モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-25T12:11:15Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。