論文の概要: FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2301.04019v1
- Date: Sun, 8 Jan 2023 03:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:53:41.964394
- Title: FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection
- Title(参考訳): FGAHOI:人間と物体の相互作用検出のための微細アンカー
- Authors: Shuailei Ma, Yuefeng Wang, Shanze Wang and Ying Wei
- Abstract要約: 上記の問題を緩和するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(FGAHOI)を提案する。
FGAHOIは、マルチスケールサンプリング(MSS)、階層空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 4.534713782093219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI), as an important problem in computer vision,
requires locating the human-object pair and identifying the interactive
relationships between them. The HOI instance has a greater span in spatial,
scale, and task than the individual object instance, making its detection more
susceptible to noisy backgrounds. To alleviate the disturbance of noisy
backgrounds on HOI detection, it is necessary to consider the input image
information to generate fine-grained anchors which are then leveraged to guide
the detection of HOI instances. However, it is challenging for the following
reasons. i) how to extract pivotal features from the images with complex
background information is still an open question. ii) how to semantically align
the extracted features and query embeddings is also a difficult issue. In this
paper, a novel end-to-end transformer-based framework (FGAHOI) is proposed to
alleviate the above problems. FGAHOI comprises three dedicated components
namely, multi-scale sampling (MSS), hierarchical spatial-aware merging (HSAM)
and task-aware merging mechanism (TAM). MSS extracts features of humans,
objects and interaction areas from noisy backgrounds for HOI instances of
various scales. HSAM and TAM semantically align and merge the extracted
features and query embeddings in the hierarchical spatial and task perspectives
in turn. In the meanwhile, a novel training strategy Stage-wise Training
Strategy is designed to reduce the training pressure caused by overly complex
tasks done by FGAHOI. In addition, we propose two ways to measure the
difficulty of HOI detection and a novel dataset, i.e., HOI-SDC for the two
challenges (Uneven Distributed Area in Human-Object Pairs and Long Distance
Visual Modeling of Human-Object Pairs) of HOI instances detection.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、コンピュータビジョンにおいて重要な問題である。
HOIインスタンスは、個々のオブジェクトインスタンスよりも空間、スケール、タスクが広いため、ノイズの多いバックグラウンドに対してより影響を受けやすい。
HOI検出におけるノイズの多い背景の乱れを軽減するためには、HOIインスタンスの検出を誘導するために利用するきめ細かいアンカーを生成するための入力画像情報を検討する必要がある。
しかし、次のような理由から困難である。
i) 複雑な背景情報を用いて画像から重要な特徴を抽出する方法はまだ未解決の問題だ。
ii) 抽出した機能とクエリの埋め込みを意味的に調整する方法も難しい問題である。
本稿では、この問題を解決するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(fgahoi)を提案する。
FGAHOIは、マルチスケールサンプリング(MSS)、階層的空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
MSSは、様々なスケールのHOIインスタンスのために、ノイズの多い背景から人、物、相互作用領域の特徴を抽出する。
HSAMとTAMは、抽出した特徴とクエリの埋め込みを階層的空間およびタスクの観点で意味的に整合し、マージする。
一方、FGAHOIによる過度に複雑な作業による訓練圧を低減するため、新たな訓練戦略であるStage-wise Training Strategyが設計された。
さらに、hoiインスタンス検出の難易度を測定する2つの方法を提案し、hoiインスタンス検出の2つの課題(人間-オブジェクトペアの分散領域と人間-オブジェクトペアの遠距離ビジュアルモデリング)に対する新しいデータセットを提案する。
関連論文リスト
- Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object
Detection [59.03596380773798]
我々は、DETRのようなパラダイムに基づいた、多フレーム3Dオブジェクト検出のための新しいエンドツーエンドフレームワークであるSTEMDを提案する。
具体的には、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
我々は,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Object Semantics Give Us the Depth We Need: Multi-task Approach to
Aerial Depth Completion [1.2239546747355885]
本稿では,2つのタスクをひとつのパスで共同実行するための新しい手法を提案する。
提案手法は,2つのタスクを共同学習機能に公開するエンコーダに着目したマルチタスク学習モデルに基づく。
実験の結果,提案したマルチタスクネットワークはシングルタスクネットワークよりも優れていた。
論文 参考訳(メタデータ) (2023-04-25T03:21:32Z) - PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person
Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。
私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。
我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-07T10:04:12Z) - Self-Supervised Interactive Object Segmentation Through a
Singulation-and-Grasping Approach [9.029861710944704]
本稿では,新しいオブジェクトと対話し,各オブジェクトのトレーニングラベルを収集するロボット学習手法を提案する。
Singulation-and-Grasping(SaG)ポリシは、エンドツーエンドの強化学習を通じてトレーニングされる。
本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。
論文 参考訳(メタデータ) (2022-07-19T15:01:36Z) - MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction
Detection [21.296007737406494]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、画像から人間、オブジェクト、インタラクションのセットを識別するタスクである。
近年の研究では、HOI検出における多くの手設計コンポーネントの必要性を解消するトランスフォーマーエンコーダデコーダアーキテクチャが提案されている。
本稿では,HOI検出用マルチスケールTRansformer (MSTR) を提案する。
論文 参考訳(メタデータ) (2022-03-28T12:58:59Z) - QAHOI: Query-Based Anchors for Human-Object Interaction Detection [29.548384966666013]
1段階のアプローチは、高い効率性のため、このタスクの新たなトレンドになっている。
本稿では、クエリベースのアンカーを用いてHOIインスタンスのすべての要素を予測するトランスフォーマーベースのQAHOIを提案する。
我々は, 強力なバックボーンがQAHOIの精度を大幅に向上させ, トランスフォーマーベースのバックボーンを用いたQAHOIは, HICO-DETベンチマークにおいて, 最新の最先端手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-12-16T05:52:23Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。