論文の概要: Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition
- arxiv url: http://arxiv.org/abs/2602.15124v1
- Date: Mon, 16 Feb 2026 19:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.878068
- Title: Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition
- Title(参考訳): MLLM-based Detector-Agnostic Interaction Recognitionを用いたゼロショットHOI検出
- Authors: Shiyu Xuan, Dongkai Wang, Zechao Li, Jinhui Tang,
- Abstract要約: Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
- 参考スコア(独自算出の注目度): 71.5328300638085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Human-object interaction (HOI) detection aims to locate humans and objects in images and recognize their interactions. While advances in open-vocabulary object detection provide promising solutions for object localization, interaction recognition (IR) remains challenging due to the combinatorial diversity of interactions. Existing methods, including two-stage methods, tightly couple IR with a specific detector and rely on coarse-grained vision-language model (VLM) features, which limit generalization to unseen interactions. In this work, we propose a decoupled framework that separates object detection from IR and leverages multi-modal large language models (MLLMs) for zero-shot IR. We introduce a deterministic generation method that formulates IR as a visual question answering task and enforces deterministic outputs, enabling training-free zero-shot IR. To further enhance performance and efficiency by fine-tuning the model, we design a spatial-aware pooling module that integrates appearance and pairwise spatial cues, and a one-pass deterministic matching method that predicts all candidate interactions in a single forward pass. Extensive experiments on HICO-DET and V-COCO demonstrate that our method achieves superior zero-shot performance, strong cross-dataset generalization, and the flexibility to integrate with any object detectors without retraining. The codes are publicly available at https://github.com/SY-Xuan/DA-HOI.
- Abstract(参考訳): Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
オープン語彙オブジェクト検出の進歩は、オブジェクトローカライゼーションのための有望なソリューションを提供するが、相互作用認識(IR)は、相互作用の組合せの多様性のため、依然として困難である。
2段階の手法を含む既存の手法では、IRを特定の検出器と密に結合し、粗い粒度の視覚言語モデル(VLM)機能に依存しており、これは一般化を目に見えない相互作用に制限する。
本研究では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
我々は、IRを視覚的質問応答タスクとして定式化し、決定論的出力を強制する決定論的生成手法を導入し、トレーニング不要なゼロショットIRを実現する。
モデルを微調整することで性能と効率をさらに向上させるため、外観と対角空間的手がかりを統合した空間認識型プールモジュールと、1つの前方通過における全ての候補相互作用を予測する1パス決定的マッチング法を設計した。
HICO-DET と V-COCO の広範囲にわたる実験により,本手法はより優れたゼロショット性能,強力なクロスデータセットの一般化を実現し,再トレーニングなしに任意の物体検出器と統合する柔軟性を実証した。
コードはhttps://github.com/SY-Xuan/DA-HOIで公開されている。
関連論文リスト
- Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs [85.69785384599827]
人間と物体の相互作用(Human-object Interaction、HOI)の検出は、人と物体のペアとそれらの相互作用を局在させることを目的としている。
既存のメソッドはクローズドワールドの仮定の下で動作し、タスクを未定義の小さな動詞集合上の分類問題として扱う。
本稿では,閉集合分類タスクから開語彙生成問題へのHOI検出を再構成する新しい生成推論・ステアブル知覚フレームワークGRASP-HOを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:41:50Z) - HOI-R1: Exploring the Potential of Multimodal Large Language Models for Human-Object Interaction Detection [6.608035306614831]
本稿では,HOIDタスクを純粋テキストで解くために,HOI推論プロセスとHOID報酬関数を導入する。
HICO-DETデータセットの結果から,HOI-R1はベースラインの精度を2倍に向上することが示された。
論文 参考訳(メタデータ) (2025-10-07T06:16:02Z) - DQEN: Dual Query Enhancement Network for DETR-based HOI Detection [19.742290580421322]
人間と物体の相互作用(Human-Object Interaction, HOI)の検出は、人間と物体のペアをローカライズし、その相互作用を認識することに焦点を当てる。
DETRベースのHOIモデルでは、HOIを正確に検出するために明確な意味を持つクエリが不可欠である。
本稿では、オブジェクトおよびインタラクションクエリを強化するために、DQEN(Dual Query Enhancement Network)を提案する。
論文 参考訳(メタデータ) (2025-08-26T10:11:08Z) - Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。
現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。
Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文 参考訳(メタデータ) (2025-08-05T08:33:58Z) - Efficient Human-Object-Interaction (EHOI) Detection via Interaction Label Coding and Conditional Decision [33.59153869330463]
本研究では, 検出性能, 推論複雑性, 数学的透明性のバランスを良くするために, 効率の良いHOI検出器を提案する。
我々の貢献は、稀な相互作用のケースをエンコードするためのエラー訂正符号(ECC)の適用を含む。
実験により,ECC符号化対話ラベルの利点と検出性能とEHOI法の複雑さのバランスが良好であることが示された。
論文 参考訳(メタデータ) (2024-08-13T16:34:06Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。