論文の概要: Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors
- arxiv url: http://arxiv.org/abs/2303.05546v1
- Date: Thu, 9 Mar 2023 19:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 16:53:03.977525
- Title: Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors
- Title(参考訳): 相互作用ラベルのみからの弱い教師付きhoi検出と言語・視覚前兆
- Authors: Mesut Erhan Unal and Adriana Kovashka
- Abstract要約: 人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
- 参考スコア(独自算出の注目度): 36.75629570208193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-object interaction (HOI) detection aims to extract interacting
human-object pairs and their interaction categories from a given natural image.
Even though the labeling effort required for building HOI detection datasets is
inherently more extensive than for many other computer vision tasks,
weakly-supervised directions in this area have not been sufficiently explored
due to the difficulty of learning human-object interactions with weak
supervision, rooted in the combinatorial nature of interactions over the object
and predicate space. In this paper, we tackle HOI detection with the weakest
supervision setting in the literature, using only image-level interaction
labels, with the help of a pretrained vision-language model (VLM) and a large
language model (LLM). We first propose an approach to prune non-interacting
human and object proposals to increase the quality of positive pairs within the
bag, exploiting the grounding capability of the vision-language model. Second,
we use a large language model to query which interactions are possible between
a human and a given object category, in order to force the model not to put
emphasis on unlikely interactions. Lastly, we use an auxiliary
weakly-supervised preposition prediction task to make our model explicitly
reason about space. Extensive experiments and ablations show that all of our
contributions increase HOI detection performance.
- Abstract(参考訳): 人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的とする。
HOI検出データセットを構築するのに必要なラベル付け作業は、他の多くのコンピュータビジョンタスクよりも本質的には広いが、この領域の弱い指示は、オブジェクトと述語空間上の相互作用の組合せの性質に根ざした、弱い監督による人間とオブジェクトの相互作用の学習が困難であるため、十分には研究されていない。
本稿では、事前学習された視覚言語モデル(VLM)と大規模言語モデル(LLM)の助けを借りて、画像レベルのインタラクションラベルのみを用いて、文献における最も弱い監視設定によるHOI検出に取り組む。
まず, 視覚言語モデルの接地能力を活用することで, 袋の中の正のペアの品質を高めるための非相互作用型人間および物体提案手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、不可能な相互作用に重点を置いてはならないよう、モデルに強制する。
最後に、弱教師付き事前配置予測タスクを用いて、モデルに空間を明示的に推論させる。
広範な実験とアブレーションにより,hoi検出性能が向上した。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - A Review of Human-Object Interaction Detection [6.1941885271010175]
ヒトと物体の相互作用(HOI)の検出は、高レベルの視覚的理解において重要な役割を果たす。
本稿では,画像に基づくHOI検出における最近の研究を体系的に要約し,考察する。
論文 参考訳(メタデータ) (2024-08-20T08:32:39Z) - Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Human Object Interaction Detection using Two-Direction Spatial
Enhancement and Exclusive Object Prior [28.99655101929647]
Human-Object Interaction (HOI) 検出は、画像中の人間とオブジェクトの視覚的関係を検出することを目的とする。
非インタラクティブな人-物対は、容易に誤分類され、アクションとして分類される。
本論文では, 空間的制約を2方向から強化する空間拡張手法を提案する。
論文 参考訳(メタデータ) (2021-05-07T07:18:27Z) - Detecting Human-Object Interaction via Fabricated Compositional Learning [106.37536031160282]
ヒューマンオブジェクトインタラクション(HOI)検出は、高レベルのシーン理解のための基本的なタスクです。
人間は珍しいまたは見えないHOIのサンプルを認識する非常に強力な構成知覚能力があります。
オープン長尾HOI検出の課題を解決するために,FCL(Fabricated Compositional Learning)を提案する。
論文 参考訳(メタデータ) (2021-03-15T08:52:56Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。