論文の概要: Bilateral Collaboration with Large Vision-Language Models for Open Vocabulary Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2507.06510v1
- Date: Wed, 09 Jul 2025 03:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.450191
- Title: Bilateral Collaboration with Large Vision-Language Models for Open Vocabulary Human-Object Interaction Detection
- Title(参考訳): 開語彙的人間-物体相互作用検出のための大規模視覚言語モデルによる双方向協調
- Authors: Yupeng Hu, Changxing Ding, Chang Sun, Shaoli Huang, Xiangmin Xu,
- Abstract要約: オープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(HOI)検出は、画像に対するすべての人間、動詞、オブジェクト>三つ子を検知する難しいタスクである。
既存のアプローチは通常、大きなビジョンランゲージモデル(VLM)によって生成される出力機能に依存している。
オープン語彙HOI検出のためのバイラテラル協調フレームワーク(BC-HOI)を提案する。
- 参考スコア(独自算出の注目度): 29.24483392547041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open vocabulary Human-Object Interaction (HOI) detection is a challenging task that detects all <human, verb, object> triplets of interest in an image, even those that are not pre-defined in the training set. Existing approaches typically rely on output features generated by large Vision-Language Models (VLMs) to enhance the generalization ability of interaction representations. However, the visual features produced by VLMs are holistic and coarse-grained, which contradicts the nature of detection tasks. To address this issue, we propose a novel Bilateral Collaboration framework for open vocabulary HOI detection (BC-HOI). This framework includes an Attention Bias Guidance (ABG) component, which guides the VLM to produce fine-grained instance-level interaction features according to the attention bias provided by the HOI detector. It also includes a Large Language Model (LLM)-based Supervision Guidance (LSG) component, which provides fine-grained token-level supervision for the HOI detector by the LLM component of the VLM. LSG enhances the ability of ABG to generate high-quality attention bias. We conduct extensive experiments on two popular benchmarks: HICO-DET and V-COCO, consistently achieving superior performance in the open vocabulary and closed settings. The code will be released in Github.
- Abstract(参考訳): Open vocabulary Human-Object Interaction (HOI) 検出は、トレーニングセットで事前に定義されていないものであっても、画像に対する関心のすべての<人,動詞,オブジェクト>三つ子を検出する難しいタスクである。
既存のアプローチは通常、対話表現の一般化能力を高めるために、大きな視覚言語モデル(VLM)によって生成された出力機能に依存している。
しかしながら、VLMが生成する視覚的特徴は総体的かつ粗い粒度であり、検出タスクの性質と矛盾する。
この問題に対処するために,オープン語彙HOI検出(BC-HOI)のためのバイラテラル協調フレームワークを提案する。
このフレームワークには、注意バイアス誘導(ABG)コンポーネントが含まれており、このコンポーネントは、HOI検出器によって提供される注意バイアスに応じて、VLMが微細なインスタンスレベルの相互作用特徴を生成するように誘導する。
また、Large Language Model (LLM) ベースの Supervision Guidance (LSG) コンポーネントが含まれており、VLM の LLM コンポーネントによる HOI 検出器のきめ細かいトークンレベルの監視を提供する。
LSGは、高品質な注意バイアスを発生させるABGの能力を高める。
我々は, HICO-DET と V-COCO の2つの人気のあるベンチマークにおいて, オープン語彙とクローズド設定において, 常に優れた性能を達成するための広範な実験を行った。
コードはGithubで公開される予定だ。
関連論文リスト
- HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning [26.35257570870916]
Visual-Linguistic Agent (VLA)は、MLLMのリレーショナル推論強度と従来の物体検出器の正確な位置決め能力を組み合わせた協調的なフレームワークである。
VLAは空間的推論とオブジェクトローカライゼーションの両方を強化し、マルチモーダル理解における重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-15T15:02:06Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Visual Compositional Learning for Human-Object Interaction Detection [111.05263071111807]
人間-物体相互作用(Human-Object Interaction,HOI)は、画像中の人間と物体の関係を局所化し、推測することを目的としている。
オブジェクトと動詞の型の組み合わせの膨大な数が、長い尾の分布を形成するため、これは難しい。
私たちは、この問題に効果的に対処するための、シンプルで効率的なフレームワークである、深いビジュアルコンポジション学習フレームワークを考案しました。
論文 参考訳(メタデータ) (2020-07-24T08:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。