Fugu-MT 論文翻訳(概要): Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models

論文の概要: Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models

arxiv url: http://arxiv.org/abs/2311.03799v1
Date: Tue, 7 Nov 2023 08:27:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 16:11:44.585068
Title: Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models
Title（参考訳）: 人間と物体の相互作用関係を検出する:基礎モデルに基づく空間的プロンプト学習を用いたユニバーサルHOI検出器
Authors: Yichao Cao, Qingfei Tang, Xiu Su, Chen Song, Shan You, Xiaobo Lu, Chang Xu
Abstract要約: 本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
参考スコア（独自算出の注目度）: 55.20626448358655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human-object interaction (HOI) detection aims to comprehend the intricate relationships between humans and objects, predicting $<human, action, object>$ triplets, and serving as the foundation for numerous computer vision tasks. The complexity and diversity of human-object interactions in the real world, however, pose significant challenges for both annotation and recognition, particularly in recognizing interactions within an open world context. This study explores the universal interaction recognition in an open-world setting through the use of Vision-Language (VL) foundation models and large language models (LLMs). The proposed method is dubbed as \emph{\textbf{UniHOI}}. We conduct a deep analysis of the three hierarchical features inherent in visual HOI detectors and propose a method for high-level relation extraction aimed at VL foundation models, which we call HO prompt-based learning. Our design includes an HO Prompt-guided Decoder (HOPD), facilitates the association of high-level relation representations in the foundation model with various HO pairs within the image. Furthermore, we utilize a LLM (\emph{i.e.} GPT) for interaction interpretation, generating a richer linguistic understanding for complex HOIs. For open-category interaction recognition, our method supports either of two input types: interaction phrase or interpretive sentence. Our efficient architecture design and learning methods effectively unleash the potential of the VL foundation models and LLMs, allowing UniHOI to surpass all existing methods with a substantial margin, under both supervised and zero-shot settings. The code and pre-trained weights are available at: \url{https://github.com/Caoyichao/UniHOI}.
Abstract（参考訳）: 人間-物体相互作用(HOI)検出は、人間と物体の間の複雑な関係を理解し、$<人,アクション,オブジェクト>$三重項を予測し、多数のコンピュータビジョンタスクの基礎となることを目的としている。しかし、現実世界における人間とオブジェクトの相互作用の複雑さと多様性は、アノテーションと認識の両方、特にオープンワールドのコンテキストにおける相互作用の認識において重大な課題をもたらす。本研究では,視覚言語基盤モデル(VL)と大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。提案手法は \emph{\textbf{UniHOI}} と呼ばれる。本稿では、視覚的HOI検出器に固有の3つの階層的特徴を深く分析し、VL基礎モデルを対象とした高次関係抽出法を提案する。我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。さらに,対話解釈にllm(\emph{i,e} gpt)を用い,複雑なhoisに対してより豊かな言語理解を生成する。オープンカテゴリのインタラクション認識には,対話句と解釈文の2つの入力タイプをサポートする。我々の効率的なアーキテクチャ設計と学習手法は、VLファンデーションモデルとLLMの可能性を効果的に解き放ち、UniHOIは教師付きおよびゼロショット設定の両方の下で、既存のすべての手法をかなりのマージンで超えることができる。コードは \url{https://github.com/caoyichao/unihoi} で利用可能である。

関連論文リスト

VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis [8.676256316312877]
対象物間相互作用(HOI)検出タスク(bfVLM-HOI)の目的関数形式としてVLMを明示的に活用する新しい手法を提案する。 VLMの言語理解を十分に活用するために言語的にHOI三重項を表現し、その局所化とオブジェクト中心の性質からCLIPモデルよりも適している。提案手法の有効性を実証し,ベンチマーク上での最先端HOI検出精度を実現する。
論文参考訳（メタデータ） (2024-11-27T04:13:23Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文参考訳（メタデータ） (2024-08-05T14:05:25Z)
Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。提案手法は,開語彙HOI検出の最先端化を実現する。
論文参考訳（メタデータ） (2024-04-09T10:27:22Z)
Towards Zero-shot Human-Object Interaction Detection via Vision-Language Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文参考訳（メタデータ） (2024-03-12T02:07:23Z)
Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文参考訳（メタデータ） (2023-11-26T09:11:32Z)
Compositional Learning in Transformer-Based Human-Object Interaction Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。 HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文参考訳（メタデータ） (2023-08-11T06:41:20Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Weakly-Supervised HOI Detection from Interaction Labels Only and Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文参考訳（メタデータ） (2023-03-09T19:08:02Z)
DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文参考訳（メタデータ） (2020-08-26T17:59:40Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。