論文の概要: FreeA: Human-object Interaction Detection using Free Annotation Labels
- arxiv url: http://arxiv.org/abs/2403.01840v1
- Date: Mon, 4 Mar 2024 08:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:24:28.720945
- Title: FreeA: Human-object Interaction Detection using Free Annotation Labels
- Title(参考訳): FreeA: Free Annotation Label を用いた人間と物体の相互作用検出
- Authors: Yuxiao Wang, Zhenao Wei, Xinyu Jiang, Yu Lei, Weiying Xue, Jinxiu Liu,
Qi Liu
- Abstract要約: 本稿では,ラベル付けを伴わずにFreeAと呼ばれる自己適応型言語駆動型HOI検出手法を提案する。
FreeAはHOIテキストテンプレートと人間オブジェクトペアの画像特徴を一致させ,不測の相互作用を抑制するために,事前知識に基づくマスク手法を開発した。
2つのベンチマークデータセットの実験により、弱い教師付きHOIモデルにおけるFreeAの最先端性能が示されている。
- 参考スコア(独自算出の注目度): 9.537338958326181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent human-object interaction (HOI) detection approaches rely on high cost
of manpower and require comprehensive annotated image datasets. In this paper,
we propose a novel self-adaption language-driven HOI detection method, termed
as FreeA, without labeling by leveraging the adaptability of CLIP to generate
latent HOI labels. To be specific, FreeA matches image features of human-object
pairs with HOI text templates, and a priori knowledge-based mask method is
developed to suppress improbable interactions. In addition, FreeA utilizes the
proposed interaction correlation matching method to enhance the likelihood of
actions related to a specified action, further refine the generated HOI labels.
Experiments on two benchmark datasets show that FreeA achieves state-of-the-art
performance among weakly supervised HOI models. Our approach is +8.58 mean
Average Precision (mAP) on HICO-DET and +1.23 mAP on V-COCO more accurate in
localizing and classifying the interactive actions than the newest weakly
model, and +1.68 mAP and +7.28 mAP than the latest weakly+ model, respectively.
Code will be available at https://drliuqi.github.io/.
- Abstract(参考訳): 近年のHuman-Object Interaction (HOI) 検出手法は高コストのマンパワーに依存し,包括的な注釈付き画像データセットを必要とする。
本稿では,CLIP の適応性を活用して潜時 HOI ラベルを生成することで,ラベル付けを行うことなく,新たな自己適応型言語駆動型 HOI 検出手法を提案する。
具体的には、FreeAは人オブジェクト対の画像特徴とHOIテキストテンプレートとをマッチングし、プリエント知識に基づくマスク法を開発し、不可能な相互作用を抑制する。
さらに、FreeAは、提案した相互作用相関マッチング手法を用いて、特定のアクションに関連するアクションの可能性を向上し、生成したHOIラベルをさらに洗練する。
2つのベンチマークデータセットの実験により、FreeAは弱い教師付きHOIモデルの中で最先端のパフォーマンスを達成することが示された。
我々のアプローチはHICO-DET上の平均精度(mAP) +8.58であり、V-COCO上の平均精度(mAP) +1.23 mAPは、最新の弱いモデルよりも、インタラクティブなアクションの局所化と分類の精度が高い。
コードはhttps://drliuqi.github.io/で入手できる。
関連論文リスト
- Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - Decoupling Object Detection from Human-Object Interaction Recognition [37.133695677465376]
DEFRは、物体の位置や人間のポーズを使わずに、画像レベルでのヒューマン・オブジェクト・インタラクション(HOI)を認識できる。
本研究では,検出不要な手法の性能向上のための2つの知見を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:01:49Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。