論文の概要: Explicit Multimodal Graph Modeling for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2509.12554v1
- Date: Tue, 16 Sep 2025 01:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.832033
- Title: Explicit Multimodal Graph Modeling for Human-Object Interaction Detection
- Title(参考訳): 人間と物体の相互作用検出のための明示的マルチモーダルグラフモデリング
- Authors: Wenxuan Ji, Haichao Shi, Xiao-Yu zhang,
- Abstract要約: グラフニューラルネットワーク(GNN)は、人間とオブジェクトのペア間の関係を明示的にモデル化するため、このタスクに本質的に適している。
我々は,GNNに基づく関係構造を利用してHOI検出を向上させる textbfMultimodal textbfGraph textbfNetwork textbfModeling (MGNM) を提案する。
- 参考スコア(独自算出の注目度): 11.15526365654911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have recently become the prevailing approach for Human-Object Interaction (HOI) detection. However, the Transformer architecture does not explicitly model the relational structures inherent in HOI detection, which impedes the recognition of interactions. In contrast, Graph Neural Networks (GNNs) are inherently better suited for this task, as they explicitly model the relationships between human-object pairs. Therefore, in this paper, we propose \textbf{M}ultimodal \textbf{G}raph \textbf{N}etwork \textbf{M}odeling (MGNM) that leverages GNN-based relational structures to enhance HOI detection. Specifically, we design a multimodal graph network framework that explicitly models the HOI task in a four-stage graph structure. Furthermore, we introduce a multi-level feature interaction mechanism within our graph network. This mechanism leverages multi-level vision and language features to enhance information propagation across human-object pairs. Consequently, our proposed MGNM achieves state-of-the-art performance on two widely used benchmarks: HICO-DET and V-COCO. Moreover, when integrated with a more advanced object detector, our method demonstrates a significant performance gain and maintains an effective balance between rare and non-rare classes.
- Abstract(参考訳): 近年,Human-Object Interaction (HOI) 検出において,トランスフォーマーに基づく手法が主流となっている。
しかし、Transformerアーキテクチャは、相互作用の認識を妨げるHOI検出に固有の関係構造を明示的にモデル化していない。
対照的に、グラフニューラルネットワーク(GNN)は、人間とオブジェクトのペア間の関係を明示的にモデル化するため、このタスクに本質的に適している。
そこで本稿では,GNN に基づく関係構造を利用してHOI 検出を高速化する \textbf{M}ultimodal \textbf{G}raph \textbf{N}etwork \textbf{M}odeling (MGNM) を提案する。
具体的には、HOIタスクを4段階のグラフ構造で明示的にモデル化するマルチモーダルグラフネットワークフレームワークを設計する。
さらに,グラフネットワーク内にマルチレベル特徴相互作用機構を導入する。
このメカニズムは、多段階の視覚と言語機能を利用して、人間とオブジェクトのペア間の情報伝達を強化する。
その結果,提案したMGNMは,HICO-DET と V-COCO の2つのベンチマークで最先端の性能を実現することができた。
さらに,より先進的な物体検出器と統合した場合,本手法は高い性能を示し,希少クラスと非希少クラスとの効果的なバランスを維持する。
関連論文リスト
- Hypergraph Neural Network with State Space Models for Node Classification [0.0]
状態空間モデル(HGMN)を用いた新しいハイパーグラフニューラルネットワークを提案する。
HGMNはロール認識表現をGNNと状態空間モデルに効果的に統合する。
このモデルは、最先端のGNN手法と比較してノード分類タスクにおいて顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-08T04:54:12Z) - Multi-Granular Attention based Heterogeneous Hypergraph Neural Network [5.580244361093485]
不均一グラフニューラルネットワーク(HeteGNN)はノード表現を学習する強力な能力を示している。
本稿では,マルチグラニュラーアテンションに基づく表現学習のためのヘテロジニアスハイパーグラフニューラルネットワークであるMGA-HHNを提案する。
論文 参考訳(メタデータ) (2025-05-07T11:42:00Z) - Overlap-aware meta-learning attention to enhance hypergraph neural networks for node classification [7.822666400307049]
ハイパーグラフニューラルネットワーク(OMA-HGNN)のための新しいフレームワークを提案する。
まず、構造的類似性と特徴的類似性の両方を統合するハイパーグラフアテンション機構を導入し、特に、それぞれの損失をHGNNモデルの重み付け要素と線形に結合する。
第2に,ノードを様々な重複レベルに基づいて異なるタスクに分割し,対応する重み付け因子を決定するマルチタスク・メタウェイト・ネット(MWN)を開発する。
第3に、内部MWNモデルを外部HGNNモデルからの損失で共同訓練し、重み付き因子で外部モデルを訓練する。
論文 参考訳(メタデータ) (2025-03-11T01:38:39Z) - Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。
また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。
本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文 参考訳(メタデータ) (2024-10-13T02:22:14Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z) - Graph Representation Learning via Graphical Mutual Information
Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。
我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文 参考訳(メタデータ) (2020-02-04T08:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。