論文の概要: UniHOI: Unified Human-Object Interaction Understanding via Unified Token Space
- arxiv url: http://arxiv.org/abs/2511.15046v1
- Date: Wed, 19 Nov 2025 02:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.594208
- Title: UniHOI: Unified Human-Object Interaction Understanding via Unified Token Space
- Title(参考訳): UniHOI:統一トークン空間による統一オブジェクトインタラクション理解
- Authors: Panqi Yang, Haodong Jing, Nanning Zheng, Yongqiang Ma,
- Abstract要約: 統一トークン空間を介してHOIの検出と生成を共同でモデル化するUniHOIを提案する。
UniHOIはHOI検出と生成の両方において最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 40.66468224427911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of human-object interaction (HOI), detection and generation are two dual tasks that have traditionally been addressed separately, hindering the development of comprehensive interaction understanding. To address this, we propose UniHOI, which jointly models HOI detection and generation via a unified token space, thereby effectively promoting knowledge sharing and enhancing generalization. Specifically, we introduce a symmetric interaction-aware attention module and a unified semi-supervised learning paradigm, enabling effective bidirectional mapping between images and interaction semantics even under limited annotations. Extensive experiments demonstrate that UniHOI achieves state-of-the-art performance in both HOI detection and generation. Specifically, UniHOI improves accuracy by 4.9% on long-tailed HOI detection and boosts interaction metrics by 42.0% on open-vocabulary generation tasks.
- Abstract(参考訳): 人間と物体の相互作用(HOI)の分野では、検出と生成は、伝統的に別々に対処されてきた2つの二重タスクであり、包括的な相互作用理解の発達を妨げる。
そこで我々は,統一トークン空間を通じてHOIの検出と生成を共同でモデル化し,知識共有と一般化を効果的に促進するUniHOIを提案する。
具体的には、対称な相互作用認識型アテンションモジュールと半教師付き学習パラダイムを導入し、限られたアノテーションの下でも、画像と相互作用セマンティクスの効果的な双方向マッピングを可能にする。
広汎な実験により、UniHOIはHOI検出と生成の両方において最先端の性能を達成することが示された。
具体的には、長い尾のHOI検出の精度を4.9%向上し、オープン語彙生成タスクのインタラクションメトリクスを42.0%向上させる。
関連論文リスト
- Learning Human-Object Interaction as Groups [52.28258599873394]
GroupHOIは、幾何学的近接性および意味的類似性の観点から文脈情報を伝播するフレームワークである。
これは、より困難な非言語間相互作用検出タスクにおいて、主要なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-10-21T07:25:10Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - RR-Net: Injecting Interactive Semantics in Human-Object Interaction
Detection [40.65483058890176]
最新のエンドツーエンドHOI検出器は関係推論に欠けており、予測のためにHOI固有の対話的セマンティクスを学習できない。
まず、インタラクション推論のための新しい構造とパラメータ共有パターンをもたらす、プログレッシブな関係認識フレームを提案する。
上記のモジュールに基づいて、Relation Reasoning Network (abbr) というエンドツーエンドのトレーニング可能なフレームワークを構築します。
RR-Net)
論文 参考訳(メタデータ) (2021-04-30T14:03:10Z) - Transferable Interactiveness Knowledge for Human-Object Interaction
Detection [46.89715038756862]
我々は,人間と物体が相互に相互作用するか否かを示す対話性知識を探索する。
対話性に関する知識は、HOIデータセット全体で学習でき、多様なHOIカテゴリ設定のギャップを埋めることができる。
私たちのコアアイデアは、対話性ネットワークを利用して、複数のHOIデータセットから一般的な対話性知識を学ぶことです。
論文 参考訳(メタデータ) (2021-01-25T18:21:07Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。