論文の概要: Streamlined Open-Vocabulary Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2603.27500v1
- Date: Sun, 29 Mar 2026 03:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.988789
- Title: Streamlined Open-Vocabulary Human-Object Interaction Detection
- Title(参考訳): 連接型オープンボキャブラリヒューマン・オブジェクトインタラクション検出
- Authors: Chang Sun, Dongliang Liao, Changxing Ding,
- Abstract要約: オープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(HOI)検出は、画像内のすべてのヒューマン・オブジェクト・インタラクションをローカライズし、認識することを目的としている。
既存のアプローチは、通常、従来のHOI検出器とVLM(Vision-Language Model)の協調に頼っている。
本稿では,強力なDINOv3モデルのみをベースとした,ストリームLined Open-vocabulary HOI 検出フレームワーク SL-HOI を紹介する。
- 参考スコア(独自算出の注目度): 25.77244663483414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary human-object interaction (HOI) detection aims to localize and recognize all human-object interactions in an image, including those unseen during training. Existing approaches usually rely on the collaboration between a conventional HOI detector and a Vision-Language Model (VLM) to recognize unseen HOI categories. However, feature fusion in this paradigm is challenging due to significant gaps in cross-model representations. To address this issue, we introduce SL-HOI, a StreamLined open-vocabulary HOI detection framework based solely on the powerful DINOv3 model. Our design leverages the complementary strengths of DINOv3's components: its backbone for fine-grained localization and its text-aligned vision head for open-vocabulary interaction classification. Moreover, to facilitate smooth cross-attention between the interaction queries and the vision head's output, we propose first feeding both the interaction queries and the backbone image tokens into the vision head, effectively bridging their representation gaps. All DINOv3 parameters in our approach are frozen, with only a small number of learnable parameters added, allowing a fast adaptation to the HOI detection task. Extensive experiments show that SL-HOI achieves state-of-the-art performance on both the SWiG-HOI and HICO-DET benchmarks, demonstrating the effectiveness of our streamlined model architecture. Code is available at https://github.com/MPI-Lab/SL-HOI.
- Abstract(参考訳): オープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(HOI)検出は、トレーニング中に見えないものを含む、画像内のすべてのヒューマン・オブジェクト・インタラクションをローカライズし、認識することを目的としている。
既存のアプローチは、通常、従来のHOI検出器とVLM(Vision-Language Model)の協調に頼っている。
しかし、このパラダイムにおける特徴融合は、モデル間の表現において大きなギャップがあるため、困難である。
この問題に対処するために,強力なDINOv3モデルのみに基づくStreamLined Open-vocabulary HOI検出フレームワークであるSL-HOIを紹介する。
本設計では, DINOv3 成分の相補的強度, 微細な局所化のためのバックボーン, オープンボキャブラリ相互作用分類のためのテキスト整列型視覚ヘッドを活用している。
さらに,対話クエリとビジョンヘッドの出力の相互接続を容易にするために,まず対話クエリとバックボーン画像トークンの両方を視覚ヘッドに供給し,その表現ギャップを効果的に埋めることを提案する。
我々のアプローチにおけるDINOv3パラメータはすべて凍結されており、少数の学習可能なパラメータしか追加されておらず、HOI検出タスクに迅速に適応できる。
SL-HOI は SWiG-HOI と HICO-DET ベンチマークの両方で最先端の性能を実現し, モデルアーキテクチャの有効性を実証した。
コードはhttps://github.com/MPI-Lab/SL-HOIで入手できる。
関連論文リスト
- Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。
現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。
Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文 参考訳(メタデータ) (2025-08-05T08:33:58Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。