論文の概要: Modeling the Multivariate Relationship with Contextualized Representations for Effective Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2509.12784v1
- Date: Tue, 16 Sep 2025 08:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.956636
- Title: Modeling the Multivariate Relationship with Contextualized Representations for Effective Human-Object Interaction Detection
- Title(参考訳): 効果的なヒューマン・オブジェクト間相互作用検出のための多変量関係と文脈表現の関係のモデル化
- Authors: Zhehao Li, Yucheng Qian, Chong Wang, Yinghao Lu, Zhihao Yang, Jiafei Wu,
- Abstract要約: ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。
本研究では,余分な推論と文脈的プロンプトを統合したコンテキスト適応型表現学習ネットワークを提案する。
提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 17.242400169885453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection aims to simultaneously localize human-object pairs and recognize their interactions. While recent two-stage approaches have made significant progress, they still face challenges due to incomplete context modeling. In this work, we introduce a Contextualized Representation Learning Network that integrates both affordance-guided reasoning and contextual prompts with visual cues to better capture complex interactions. We enhance the conventional HOI detection framework by expanding it beyond simple human-object pairs to include multivariate relationships involving auxiliary entities like tools. Specifically, we explicitly model the functional role (affordance) of these auxiliary objects through triplet structures <human, tool, object>. This enables our model to identify tool-dependent interactions such as 'filling'. Furthermore, the learnable prompt is enriched with instance categories and subsequently integrated with contextual visual features using an attention mechanism. This process aligns language with image content at both global and regional levels. These contextualized representations equip the model with enriched relational cues for more reliable reasoning over complex, context-dependent interactions. Our proposed method demonstrates superior performance on both the HICO-Det and V-COCO datasets in most scenarios. Codes will be released upon acceptance.
- Abstract(参考訳): ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。
最近の2段階のアプローチは大きな進歩を遂げているが、不完全なコンテキストモデリングのために依然として課題に直面している。
本研究では,複雑なインタラクションをよりよく捉えるための視覚的手がかりを用いて,手頃な推論と文脈的プロンプトの両方を統合したコンテキスト適応型表現学習ネットワークを提案する。
ツールのような補助的なエンティティを含む多変量関係を含む単純な対象対を超えて拡張することで、従来のHOI検出フレームワークを強化する。
具体的には,これらの補助対象の機能的役割(適応)を,3重構造<人・道具・対象>を通して明示的にモデル化する。
これにより、我々のモデルは「埋め合わせ」のようなツールに依存した相互作用を識別できる。
さらに、学習可能なプロンプトはインスタンスカテゴリに富み、その後アテンションメカニズムを使用してコンテキスト視覚特徴と統合される。
このプロセスは、言語をグローバルレベルと地域レベルの両方で画像コンテンツと整合させる。
これらの文脈化された表現は、複雑な文脈依存的な相互作用に対するより信頼性の高い推論のために、リッチなリレーショナルキューをモデルに装備する。
提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
コードは受理後に公開される。
関連論文リスト
- Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Geometric Visual Fusion Graph Neural Networks for Multi-Person Human-Object Interaction Recognition in Videos [14.198003271084799]
ビデオにおけるHuman-Object Interaction(HOI)認識には、時間とともに進化していく視覚的パターンと幾何学的関係の両方を理解する必要がある。
本稿では,相互依存型実体グラフ学習と組み合わせた2重アテンション特徴フュージョンを用いたGeometric Visual Fusion Graph Neural Network (GeoVis-GNN)を提案する。
実世界のシナリオにHOI認識を前進させるために、コンカレント部分的相互作用データセットを導入する。
論文 参考訳(メタデータ) (2025-06-03T22:51:44Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。