論文の概要: Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2311.16475v2
- Date: Tue, 08 Oct 2024 04:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:33.010724
- Title: Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルからのコンテキストキューによるHOI検出の強化
- Authors: Yu-Wei Zhan, Fan Liu, Xin Luo, Xin-Shun Xu, Liqiang Nie, Mohan Kankanhalli,
- Abstract要約: ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
- 参考スコア(独自算出の注目度): 56.257840490146
- License:
- Abstract: Human-Object Interaction (HOI) detection aims at detecting human-object pairs and predicting their interactions. However, conventional HOI detection methods often struggle to fully capture the contextual information needed to accurately identify these interactions. While large Vision-Language Models (VLMs) show promise in tasks involving human interactions, they are not tailored for HOI detection. The complexity of human behavior and the diverse contexts in which these interactions occur make it further challenging. Contextual cues, such as the participants involved, body language, and the surrounding environment, play crucial roles in predicting these interactions, especially those that are unseen or ambiguous. Moreover, large VLMs are trained on vast image and text data, enabling them to generate contextual cues that help in understanding real-world contexts, object relationships, and typical interactions. Building on this, in this paper we introduce ConCue, a novel approach for improving visual feature extraction in HOI detection. Specifically, we first design specialized prompts to utilize large VLMs to generate contextual cues within an image. To fully leverage these cues, we develop a transformer-based feature extraction module with a multi-tower architecture that integrates contextual cues into both instance and interaction detectors. Extensive experiments and analyses demonstrate the effectiveness of using these contextual cues for HOI detection. The experimental results show that integrating ConCue with existing state-of-the-art methods significantly enhances their performance on two widely used datasets.
- Abstract(参考訳): 人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体の対を検出し、その相互作用を予測することを目的としている。
しかし、従来のHOI検出手法は、これらの相互作用を正確に識別するのに必要なコンテキスト情報をフルに把握するのに苦労することが多い。
大きなビジョン・ランゲージ・モデル(VLM)は人間のインタラクションに関わるタスクにおいて有望であるが、HOI検出には適していない。
人間の行動の複雑さと、これらの相互作用が起こる多様な文脈により、さらに困難になる。
関係する参加者、ボディランゲージ、周囲の環境といった文脈的手がかりは、これらの相互作用、特に目に見えない、曖昧な相互作用を予測する上で重要な役割を果たす。
さらに、大規模なVLMは膨大な画像とテキストデータに基づいて訓練されており、現実世界のコンテキスト、オブジェクトの関係、典型的な相互作用を理解するのに役立つコンテキストキューを生成することができる。
本論文では,HOI検出における視覚的特徴抽出を改善するための新しいアプローチであるConCueを紹介する。
具体的には、画像内の文脈的手がかりを生成するために、大きなVLMを利用する特別なプロンプトを最初に設計する。
これらのキューをフル活用するために,コンテクストキューをインスタンスとインタラクション検出の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
広汎な実験と分析により、HOI検出にこれらの文脈的手がかりを用いることの有効性が示された。
実験の結果,ConCueと既存の最先端手法を統合することで,広く使用されている2つのデータセットの性能が著しく向上することがわかった。
関連論文リスト
- Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - Human-Object Interaction Detection:A Quick Survey and Examination of
Methods [17.8805983491991]
これは、この分野における最先端およびマイルストーンの研究に関する最初の一般的な調査である。
本稿では,人間と物体の相互作用検出の分野での展開に関する基礎的な調査を行う。
本稿では,HORCNNアーキテクチャを基礎研究として検討する。
論文 参考訳(メタデータ) (2020-09-27T20:58:39Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。