論文の概要: QPIC: Query-Based Pairwise Human-Object Interaction Detection with
Image-Wide Contextual Information
- arxiv url: http://arxiv.org/abs/2103.05399v1
- Date: Tue, 9 Mar 2021 12:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 15:08:28.864156
- Title: QPIC: Query-Based Pairwise Human-Object Interaction Detection with
Image-Wide Contextual Information
- Title(参考訳): qpic: 画像ワイドコンテキスト情報を用いた問合せに基づく対物対話検出
- Authors: Masato Tamura, Hiroki Ohashi, Tomoaki Yoshinaga
- Abstract要約: ヒトと物体の相互作用(HOI)を簡易かつ直感的に検出する手法を提案する。
既存のcnnベースの方法は以下の3つの大きな欠点に直面している。
提案手法は文脈的に重要な特徴を抽出する。
- 参考スコア(独自算出の注目度): 3.6739949215165164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple, intuitive yet powerful method for human-object
interaction (HOI) detection. HOIs are so diverse in spatial distribution in an
image that existing CNN-based methods face the following three major drawbacks;
they cannot leverage image-wide features due to CNN's locality, they rely on a
manually defined location-of-interest for the feature aggregation, which
sometimes does not cover contextually important regions, and they cannot help
but mix up the features for multiple HOI instances if they are located closely.
To overcome these drawbacks, we propose a transformer-based feature extractor,
in which an attention mechanism and query-based detection play key roles. The
attention mechanism is effective in aggregating contextually important
information image-wide, while the queries, which we design in such a way that
each query captures at most one human-object pair, can avoid mixing up the
features from multiple instances. This transformer-based feature extractor
produces so effective embeddings that the subsequent detection heads may be
fairly simple and intuitive. The extensive analysis reveals that the proposed
method successfully extracts contextually important features, and thus
outperforms existing methods by large margins (5.37 mAP on HICO-DET, and 5.7
mAP on V-COCO). The source codes are available at
$\href{https://github.com/hitachi-rd-cv/qpic}{\text{this https URL}}$.
- Abstract(参考訳): ヒトと物体の相互作用(HOI)を簡易かつ直感的に検出する手法を提案する。
既存のCNNベースの手法は、CNNの局所性のために画像全体の機能を利用することができないこと、機能集約のために手動で定義された位置情報に依存していること、コンテキスト的に重要な領域をカバーできないこと、およびそれらが密接に配置されている場合、複数のHOIインスタンスの機能を混ぜることができないこと、という3つの大きな欠点に直面している。
これらの欠点を克服するために,注意機構と問合せに基づく検出が鍵となるトランス型特徴抽出器を提案する。
注意機構は、画像全体において重要な情報を集約するのに有効であるが、クエリは、各クエリが少なくとも1つの人間とオブジェクトのペアをキャプチャするように設計し、複数のインスタンスから機能を混同することを避けることができる。
このトランスベースの特徴抽出器は、後続の検出ヘッドが比較的単純で直感的なほど効果的な埋め込みを生成する。
その結果,提案手法は文脈的に重要な特徴を抽出し,既存の手法よりも大きなマージン(HICO-DETでは5.37mAP,V-COCOでは5.7mAP)を達成できた。
ソースコードは$\href{https://github.com/hitachi-rd-cv/qpic}{\text{this https URL}}$で入手できる。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - QAHOI: Query-Based Anchors for Human-Object Interaction Detection [29.548384966666013]
1段階のアプローチは、高い効率性のため、このタスクの新たなトレンドになっている。
本稿では、クエリベースのアンカーを用いてHOIインスタンスのすべての要素を予測するトランスフォーマーベースのQAHOIを提案する。
我々は, 強力なバックボーンがQAHOIの精度を大幅に向上させ, トランスフォーマーベースのバックボーンを用いたQAHOIは, HICO-DETベンチマークにおいて, 最新の最先端手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-12-16T05:52:23Z) - Reformulating HOI Detection as Adaptive Set Prediction [25.44630995307787]
我々は適応セット予測問題としてHOI検出を再構成する。
本稿では,並列インスタンスとインタラクションブランチを備えた適応型セットベースワンステージフレームワーク(as-net)を提案する。
この手法は、人間のポーズや言語的特徴を必要とせず、従来の最先端の手法を上回ります。
論文 参考訳(メタデータ) (2021-03-10T10:40:33Z) - MultiResolution Attention Extractor for Small Object Detection [40.74232149130456]
小さい物体は解像度が低く、小さいため検出が難しい。
人間の視覚の「注意」メカニズムにインスパイアされ、我々は2つの特徴抽出手法を利用して、小さな物体の最も有用な情報をマイニングする。
論文 参考訳(メタデータ) (2020-06-10T16:47:56Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Pixel-Semantic Revise of Position Learning A One-Stage Object Detector
with A Shared Encoder-Decoder [5.371825910267909]
異なる手法がオブジェクトを適応的に検出することを分析する。
いくつかの最先端検出器は、異なる特徴ピラミッドと多レベルセマンティック情報を強化するための多くのメカニズムを組み合わせている。
この研究は、注意機構を持つ共有エンコーダデコーダを持つアンカーフリー検出器によって対処される。
論文 参考訳(メタデータ) (2020-01-04T08:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。