論文の概要: Polysemy Deciphering Network for Robust Human-Object Interaction
Detection
- arxiv url: http://arxiv.org/abs/2008.02918v3
- Date: Wed, 24 Mar 2021 01:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:31:23.240820
- Title: Polysemy Deciphering Network for Robust Human-Object Interaction
Detection
- Title(参考訳): ロバストな人間と物体の相互作用検出のためのポリセマイズ・デセプティファイリング・ネットワーク
- Authors: Xubin Zhong, Changxing Ding, Xian Qu, Dacheng Tao
- Abstract要約: 本稿では,HOI検出のための動詞の視覚的ポリセミーを復号する新しいポリセミー・デセプティング・ネットワーク(PD-Net)を提案する。
2つの新しいモジュールを用いてHOI検出機能をポリセミヤウェアに洗練する。
第2に, PD-Net に先立ってより重要と思われる特徴型に基づいて決定を下すための, 新たなpolysemy-Aware Modal Fusion モジュール (PAMF) を導入する。
- 参考スコア(独自算出の注目度): 86.97181280842098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection is important to human-centric scene
understanding tasks. Existing works tend to assume that the same verb has
similar visual characteristics in different HOI categories, an approach that
ignores the diverse semantic meanings of the verb. To address this issue, in
this paper, we propose a novel Polysemy Deciphering Network (PD-Net) that
decodes the visual polysemy of verbs for HOI detection in three distinct ways.
First, we refine features for HOI detection to be polysemyaware through the use
of two novel modules: namely, Language Prior-guided Channel Attention (LPCA)
and Language Prior-based Feature Augmentation (LPFA). LPCA highlights important
elements in human and object appearance features for each HOI category to be
identified; moreover, LPFA augments human pose and spatial features for HOI
detection using language priors, enabling the verb classifiers to receive
language hints that reduce intra-class variation for the same verb. Second, we
introduce a novel Polysemy-Aware Modal Fusion module (PAMF), which guides
PD-Net to make decisions based on feature types deemed more important according
to the language priors. Third, we propose to relieve the verb polysemy problem
through sharing verb classifiers for semantically similar HOI categories.
Furthermore, to expedite research on the verb polysemy problem, we build a new
benchmark dataset named HOI-VerbPolysemy (HOIVP), which includes common verbs
(predicates) that have diverse semantic meanings in the real world. Finally,
through deciphering the visual polysemy of verbs, our approach is demonstrated
to outperform state-of-the-art methods by significant margins on the HICO-DET,
V-COCO, and HOI-VP databases. Code and data in this paper are available at
https://github.com/MuchHair/PD-Net.
- Abstract(参考訳): ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解タスクにおいて重要である。
既存の作品では、同じ動詞が異なるホイカテゴリーで類似した視覚特性を持つと仮定する傾向があり、これは動詞の多様な意味意味を無視するアプローチである。
本稿では,3つの異なる方法でHOI検出のための動詞の視覚的ポリセミーを復号する,新しいポリセミー復号ネットワーク(PD-Net)を提案する。
まず,LPCA (Language Prior-guided Channel Attention) とLPFA (Language Prior-based Feature Augmentation) という2つの新しいモジュールを用いて,HOI検出機能をポリセマウェアに改良する。
LPCAは、識別すべきHOIカテゴリごとに人間とオブジェクトの外観の特徴を強調し、LPFAは言語先行語を用いたHOI検出のための人間のポーズと空間的特徴を増強し、動詞分類器は同じ動詞のクラス内変化を減らす言語ヒントを受け取ることができる。
第2に、pd-netが言語に先立って重要視される特徴型に基づいて意思決定を行うための、新しいpolysemy-aware modal fusion module (pamf)を提案する。
第3に、意味的に類似するhoiカテゴリの動詞分類器を共有することにより、動詞ポリセミー問題を緩和する。
さらに,動詞多義性問題の研究の迅速化を目的として,実世界において多様な意味を持つ共通動詞(述語)を含むHOI-VerbPolysemy(HOIVP)というベンチマークデータセットを構築した。
最後に,動詞の視覚的多義性を解読することにより,HICO-DET,V-COCO,HOI-VPデータベースにおいて,最先端の手法よりも優れた性能を示すことを示す。
コードとデータはhttps://github.com/muchhair/pd-netで利用可能である。
関連論文リスト
- Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - RefCrowd: Grounding the Target in Crowd with Referring Expressions [20.822504213866726]
提案するRefCrowdは,対象人物を対象人物として参照表現で検索する。
自然言語情報を十分に掘り下げるだけでなく、ターゲットと類似した外見を持つ人々の群衆の微妙な違いに注意する必要がある。
また,群衆理解におけるREFを扱うために,FMAC(Fulti-modal Attribute Contrastive Network)を提案する。
論文 参考訳(メタデータ) (2022-06-16T13:39:26Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。