論文の概要: End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2204.03541v1
- Date: Fri, 1 Apr 2022 07:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-10 11:37:52.027716
- Title: End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation
- Title(参考訳): 視覚と言語知識の蒸留によるエンド・ツー・エンドゼロショットHOI検出
- Authors: Mingrui Wu, Jiaxin Gu, Yunhang Shen, Mingbao Lin, Chao Chen, Xiaoshuai
Sun, Rongrong Ji
- Abstract要約: 我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
- 参考スコア(独自算出の注目度): 86.41437210485932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing Human-Object Interaction~(HOI) Detection methods rely heavily
on full annotations with predefined HOI categories, which is limited in
diversity and costly to scale further. We aim at advancing zero-shot HOI
detection to detect both seen and unseen HOIs simultaneously. The fundamental
challenges are to discover potential human-object pairs and identify novel HOI
categories. To overcome the above challenges, we propose a novel end-to-end
zero-shot HOI Detection (EoID) framework via vision-language knowledge
distillation. We first design an Interactive Score module combined with a
Two-stage Bipartite Matching algorithm to achieve interaction distinguishment
for human-object pairs in an action-agnostic manner. Then we transfer the
distribution of action probability from the pretrained vision-language teacher
as well as the seen ground truth to the HOI model to attain zero-shot HOI
classification. Extensive experiments on HICO-Det dataset demonstrate that our
model discovers potential interactive pairs and enables the recognition of
unseen HOIs. Finally, our method outperforms the previous SOTA by 8.92% on
unseen mAP and 10.18% on overall mAP under UA setting, by 6.02% on unseen mAP
and 9.1% on overall mAP under UC setting. Moreover, our method is generalizable
to large-scale object detection data to further scale up the action sets. The
source code will be available at: https://github.com/mrwu-mac/EoID.
- Abstract(参考訳): ほとんどの既存のヒューマン・オブジェクト間インタラクション(hoi)検出手法は、事前に定義されたhoiカテゴリを持つ完全なアノテーションに大きく依存している。
ゼロショットhoi検出の進歩を目標とし,目に見えるhoisと目立たないhoisの両方を同時に検出する。
根本的な課題は、潜在的な人間と対象のペアを発見し、新しいHOIカテゴリを特定することである。
以上の課題を克服するために,視覚言語による知識蒸留による新しいゼロショットHOI検出(EoID)フレームワークを提案する。
まず,対話型スコアモジュールを2段階のバイパートマッチングアルゴリズムと組み合わせて設計し,アクションに依存しない方法で人間とオブジェクトの相互作用の区別を実現する。
そして,事前学習した視覚言語教師の行動確率分布と,観察された真実をHOIモデルに転送し,ゼロショットHOI分類を実現する。
HICO-Detデータセットの大規模な実験により、我々のモデルは潜在的な対話的ペアを発見し、目に見えないHOIの認識を可能にする。
最後に,UA設定下ではmAP全体の8.92%,UA設定下では10.18%,UA設定下ではmAP全体の6.02%,UC設定下では9.1%であった。
さらに,本手法は大規模物体検出データに一般化し,さらに動作集合をスケールアップする。
ソースコードは、https://github.com/mrwu-mac/EoID.comで入手できる。
関連論文リスト
- Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - FreeA: Human-object Interaction Detection using Free Annotation Labels [9.537338958326181]
本稿では,ラベル付けを伴わずにFreeAと呼ばれる自己適応型言語駆動型HOI検出手法を提案する。
FreeAはHOIテキストテンプレートと人間オブジェクトペアの画像特徴を一致させ,不測の相互作用を抑制するために,事前知識に基づくマスク手法を開発した。
2つのベンチマークデータセットの実験により、弱い教師付きHOIモデルにおけるFreeAの最先端性能が示されている。
論文 参考訳(メタデータ) (2024-03-04T08:38:15Z) - Exploring Self- and Cross-Triplet Correlations for Human-Object
Interaction Detection [38.86053346974547]
本稿では,HOI検出のための自己相関とクロストリプレット相関について検討する。
具体的には、各三重項提案を、Human、Objectがノードを表し、Actionがエッジを示すグラフとみなす。
また、インスタンスレベル、セマンティックレベル、レイアウトレベルの関係を共同で検討することで、クロストリップの依存関係についても検討する。
論文 参考訳(メタデータ) (2024-01-11T05:38:24Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Decoupling Object Detection from Human-Object Interaction Recognition [37.133695677465376]
DEFRは、物体の位置や人間のポーズを使わずに、画像レベルでのヒューマン・オブジェクト・インタラクション(HOI)を認識できる。
本研究では,検出不要な手法の性能向上のための2つの知見を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:01:49Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。