論文の概要: Polysemy Deciphering Network for Robust Human-Object Interaction
Detection
- arxiv url: http://arxiv.org/abs/2008.02918v3
- Date: Wed, 24 Mar 2021 01:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:31:23.240820
- Title: Polysemy Deciphering Network for Robust Human-Object Interaction
Detection
- Title(参考訳): ロバストな人間と物体の相互作用検出のためのポリセマイズ・デセプティファイリング・ネットワーク
- Authors: Xubin Zhong, Changxing Ding, Xian Qu, Dacheng Tao
- Abstract要約: 本稿では,HOI検出のための動詞の視覚的ポリセミーを復号する新しいポリセミー・デセプティング・ネットワーク(PD-Net)を提案する。
2つの新しいモジュールを用いてHOI検出機能をポリセミヤウェアに洗練する。
第2に, PD-Net に先立ってより重要と思われる特徴型に基づいて決定を下すための, 新たなpolysemy-Aware Modal Fusion モジュール (PAMF) を導入する。
- 参考スコア(独自算出の注目度): 86.97181280842098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection is important to human-centric scene
understanding tasks. Existing works tend to assume that the same verb has
similar visual characteristics in different HOI categories, an approach that
ignores the diverse semantic meanings of the verb. To address this issue, in
this paper, we propose a novel Polysemy Deciphering Network (PD-Net) that
decodes the visual polysemy of verbs for HOI detection in three distinct ways.
First, we refine features for HOI detection to be polysemyaware through the use
of two novel modules: namely, Language Prior-guided Channel Attention (LPCA)
and Language Prior-based Feature Augmentation (LPFA). LPCA highlights important
elements in human and object appearance features for each HOI category to be
identified; moreover, LPFA augments human pose and spatial features for HOI
detection using language priors, enabling the verb classifiers to receive
language hints that reduce intra-class variation for the same verb. Second, we
introduce a novel Polysemy-Aware Modal Fusion module (PAMF), which guides
PD-Net to make decisions based on feature types deemed more important according
to the language priors. Third, we propose to relieve the verb polysemy problem
through sharing verb classifiers for semantically similar HOI categories.
Furthermore, to expedite research on the verb polysemy problem, we build a new
benchmark dataset named HOI-VerbPolysemy (HOIVP), which includes common verbs
(predicates) that have diverse semantic meanings in the real world. Finally,
through deciphering the visual polysemy of verbs, our approach is demonstrated
to outperform state-of-the-art methods by significant margins on the HICO-DET,
V-COCO, and HOI-VP databases. Code and data in this paper are available at
https://github.com/MuchHair/PD-Net.
- Abstract(参考訳): ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解タスクにおいて重要である。
既存の作品では、同じ動詞が異なるホイカテゴリーで類似した視覚特性を持つと仮定する傾向があり、これは動詞の多様な意味意味を無視するアプローチである。
本稿では,3つの異なる方法でHOI検出のための動詞の視覚的ポリセミーを復号する,新しいポリセミー復号ネットワーク(PD-Net)を提案する。
まず,LPCA (Language Prior-guided Channel Attention) とLPFA (Language Prior-based Feature Augmentation) という2つの新しいモジュールを用いて,HOI検出機能をポリセマウェアに改良する。
LPCAは、識別すべきHOIカテゴリごとに人間とオブジェクトの外観の特徴を強調し、LPFAは言語先行語を用いたHOI検出のための人間のポーズと空間的特徴を増強し、動詞分類器は同じ動詞のクラス内変化を減らす言語ヒントを受け取ることができる。
第2に、pd-netが言語に先立って重要視される特徴型に基づいて意思決定を行うための、新しいpolysemy-aware modal fusion module (pamf)を提案する。
第3に、意味的に類似するhoiカテゴリの動詞分類器を共有することにより、動詞ポリセミー問題を緩和する。
さらに,動詞多義性問題の研究の迅速化を目的として,実世界において多様な意味を持つ共通動詞(述語)を含むHOI-VerbPolysemy(HOIVP)というベンチマークデータセットを構築した。
最後に,動詞の視覚的多義性を解読することにより,HICO-DET,V-COCO,HOI-VPデータベースにおいて,最先端の手法よりも優れた性能を示すことを示す。
コードとデータはhttps://github.com/muchhair/pd-netで利用可能である。
関連論文リスト
- Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - A Human Word Association based model for topic detection in social
networks [3.8137985834223507]
本稿では,「心的能力の模倣」の概念を用いて,ソーシャルネットワークにおける話題検出フレームワークを提案する。
この目的のために特別抽出アルゴリズムも設計されている。
FA-CUPデータセットを用いて,本手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-01-30T17:10:34Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - RefCrowd: Grounding the Target in Crowd with Referring Expressions [20.822504213866726]
提案するRefCrowdは,対象人物を対象人物として参照表現で検索する。
自然言語情報を十分に掘り下げるだけでなく、ターゲットと類似した外見を持つ人々の群衆の微妙な違いに注意する必要がある。
また,群衆理解におけるREFを扱うために,FMAC(Fulti-modal Attribute Contrastive Network)を提案する。
論文 参考訳(メタデータ) (2022-06-16T13:39:26Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - ReferentialGym: A Nomenclature and Framework for Language Emergence &
Grounding in (Visual) Referential Games [0.30458514384586394]
自然言語は、人間が情報を伝達し、共通の目標に向けて協力するための強力なツールである。
計算言語学者は、言語ゲームによって引き起こされる人工言語の出現を研究している。
AIコミュニティは、言語の出現と、より優れたヒューマンマシンインターフェースに向けた基礎研究を開始した。
論文 参考訳(メタデータ) (2020-12-17T10:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。