論文の概要: Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2604.02071v1
- Date: Thu, 02 Apr 2026 14:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.840015
- Title: Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection
- Title(参考訳): ヒューマン・オブジェクトインタラクション検出のためのマイニングインスタンス-中心視領域コンテキスト
- Authors: Soo Won Seo, KyungChae Lee, Hyungchan Cho, Taein Son, Nam Ik Cho, Jun Won Choi,
- Abstract要約: 人オブジェクトインタラクション(HOI)検出は、人オブジェクトペアをローカライズし、そのインタラクションを単一のイメージから分類することを目的としている。
近年のアプローチでは、視覚言語モデル(VLM)を利用してセマンティックな事前情報を導入し、HOI検出性能を大幅に改善している。
本稿では、VLMから抽出したリッチな意味知識と、オブジェクト検出器によって生成されたインスタンス固有の特徴を統合するために、インスタンス中心のコンテキストマイニングネットワーク(InCoM-Net)を提案する。
- 参考スコア(独自算出の注目度): 29.69451620133701
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human-Object Interaction (HOI) detection aims to localize human-object pairs and classify their interactions from a single image, a task that demands strong visual understanding and nuanced contextual reasoning. Recent approaches have leveraged Vision-Language Models (VLMs) to introduce semantic priors, significantly improving HOI detection performance. However, existing methods often fail to fully capitalize on the diverse contextual cues distributed across the entire scene. To overcome these limitations, we propose the Instance-centric Context Mining Network (InCoM-Net)-a novel framework that effectively integrates rich semantic knowledge extracted from VLMs with instance-specific features produced by an object detector. This design enables deeper interaction reasoning by modeling relationships not only within each detected instance but also across instances and their surrounding scene context. InCoM-Net comprises two core components: Instancecentric Context Refinement (ICR), which separately extracts intra-instance, inter-instance, and global contextual cues from VLM-derived features, and Progressive Context Aggregation (ProCA), which iteratively fuses these multicontext features with instance-level detector features to support high-level HOI reasoning. Extensive experiments on the HICO-DET and V-COCO benchmarks show that InCoM-Net achieves state-of-the-art performance, surpassing previous HOI detection methods. Code is available at https://github.com/nowuss/InCoM-Net.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間とオブジェクトのペアをローカライズし、その相互作用を単一のイメージから分類することを目的としている。
近年のアプローチでは、視覚言語モデル(VLM)を利用してセマンティックな事前情報を導入し、HOI検出性能を大幅に改善している。
しかし、既存の手法は、シーン全体にわたって分散された多様な文脈的手がかりを十分に活用できないことが多い。
これらの制約を克服するために、VLMから抽出されたリッチな意味知識とオブジェクト検出器によって生成されたインスタンス固有の特徴を効果的に統合する、インスタンス中心のコンテキストマイニングネットワーク(InCoM-Net)を提案する。
この設計により、検出された各インスタンスだけでなく、検出されたインスタンスとその周辺のシーンコンテキスト間の関係をモデル化することで、より深いインタラクション推論が可能になる。
InCoM-Netは、VLM由来の機能からインスタンス内、インスタンス間、グローバルコンテキストキューを別々に抽出するインスタンス中心コンテキストリファインメント(ICR)と、高レベルのHOI推論をサポートするためにこれらのマルチコンテキスト機能と反復的に融合するプログレッシブコンテキストアグリゲーション(ProCA)の2つのコアコンポーネントで構成されている。
HICO-DETとV-COCOベンチマークの大規模な実験は、InCoM-Netが従来のHOI検出手法を超越して最先端のパフォーマンスを達成することを示している。
コードはhttps://github.com/nowuss/InCoM-Netで入手できる。
関連論文リスト
- Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - RefAtomNet++: Advancing Referring Atomic Video Action Recognition using Semantic Retrieval based Multi-Trajectory Mamba [86.47790050206306]
RefAVA++は290万フレームと75.1kの注釈付き人で構成される。
RefAtomNet++は、多階層的なセマンティックアラインなクロスアテンションメカニズムを通じて、クロスモーダルトークンアグリゲーションを前進させる。
実験によると、RefAtomNet++は新しい最先端の結果を確立している。
論文 参考訳(メタデータ) (2025-10-18T10:41:19Z) - Contextualized Representation Learning for Effective Human-Object Interaction Detection [17.242400169885453]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。
本研究では,条件付き推論と文脈的プロンプトを統合した文脈適応型表現学習を提案する。
提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-16T08:03:16Z) - ContextHOI: Spatial Context Learning for Human-Object Interaction Detection [24.381821663963898]
空間コンテキストは、Human-Object Interaction (HOI) 認識において重要であると考えられている。
本稿では、オブジェクト検出機能と空間コンテキストの両方を効率的にキャプチャするContextHOIというデュアルブランチフレームワークを提案する。
ContextHOIはHICO-DETとv-cocoベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-12T08:21:19Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。