論文の概要: Learning Human-Object Interaction as Groups
- arxiv url: http://arxiv.org/abs/2510.18357v1
- Date: Tue, 21 Oct 2025 07:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.124875
- Title: Learning Human-Object Interaction as Groups
- Title(参考訳): グループとしての人間-物体相互作用の学習
- Authors: Jiajun Hong, Jianan Wei, Wenguan Wang,
- Abstract要約: GroupHOIは、幾何学的近接性および意味的類似性の観点から文脈情報を伝播するフレームワークである。
これは、より困難な非言語間相互作用検出タスクにおいて、主要なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 52.28258599873394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction Detection (HOI-DET) aims to localize human-object pairs and identify their interactive relationships. To aggregate contextual cues, existing methods typically propagate information across all detected entities via self-attention mechanisms, or establish message passing between humans and objects with bipartite graphs. However, they primarily focus on pairwise relationships, overlooking that interactions in real-world scenarios often emerge from collective behaviors (multiple humans and objects engaging in joint activities). In light of this, we revisit relation modeling from a group view and propose GroupHOI, a framework that propagates contextual information in terms of geometric proximity and semantic similarity. To exploit the geometric proximity, humans and objects are grouped into distinct clusters using a learnable proximity estimator based on spatial features derived from bounding boxes. In each group, a soft correspondence is computed via self-attention to aggregate and dispatch contextual cues. To incorporate the semantic similarity, we enhance the vanilla transformer-based interaction decoder with local contextual cues from HO-pair features. Extensive experiments on HICO-DET and V-COCO benchmarks demonstrate the superiority of GroupHOI over the state-of-the-art methods. It also exhibits leading performance on the more challenging Nonverbal Interaction Detection (NVI-DET) task, which involves varied forms of higher-order interactions within groups.
- Abstract(参考訳): 人間-物体相互作用検出(Human-Object Interaction Detection,HOI-DET)は、人-物体のペアをローカライズし、対話的な関係を識別することを目的としている。
文脈的手がかりを集約するために、既存の手法は、通常、自己認識機構を通じて検出されたすべてのエンティティをまたがって情報を伝達し、また、二部グラフで人間とオブジェクト間のメッセージパッシングを確立する。
しかし、それらは主にペア関係に焦点を合わせ、現実のシナリオにおける相互作用が集団行動(複数の人間と共同活動に従事する物体)からしばしば現れるのを見落としている。
これを踏まえ、グループビューから関係モデリングを再考し、幾何学的近接性および意味的類似性の観点から文脈情報を伝播するフレームワークであるGroupHOIを提案する。
幾何学的近接性を利用するために、人間と物体は、境界ボックスから派生した空間的特徴に基づいて、学習可能な近接推定器を用いて、別個のクラスタにグループ化される。
各グループにおいて、ソフトな対応は自己注意によって計算され、文脈的手がかりを集約し、ディスパッチする。
セマンティックな類似性を取り入れるために,バニラ変換器を用いたインタラクションデコーダをHOペアの特徴から局所的な文脈的手がかりで拡張する。
HICO-DETとV-COCOベンチマークの大規模な実験は、最先端の手法よりもGroupHOIの方が優れていることを示した。
また、グループ内の高次相互作用のさまざまな形態を含む、より困難な非言語間相互作用検出(NVI-DET)タスクにおいて、主要なパフォーマンスを示す。
関連論文リスト
- Contextualized Representation Learning for Effective Human-Object Interaction Detection [17.242400169885453]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。
本研究では,条件付き推論と文脈的プロンプトを統合した文脈適応型表現学習を提案する。
提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-16T08:03:16Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Human-to-Human Interaction Detection [3.00604614803979]
ヒューマン・ツー・ヒューマン・インタラクション検出(HID)という新しいタスクを導入する。
HIDは、被験者の検出、個人的行動の認識、対話的な関係に応じたグループ化に、1つのモデルで取り組みます。
まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、AVA-Interaction(AVA-I)と呼ばれる新しいHIDベンチマークを確立する。
論文 参考訳(メタデータ) (2023-07-02T03:24:58Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。