論文の概要: FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2301.04019v1
- Date: Sun, 8 Jan 2023 03:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:53:41.964394
- Title: FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection
- Title(参考訳): FGAHOI:人間と物体の相互作用検出のための微細アンカー
- Authors: Shuailei Ma, Yuefeng Wang, Shanze Wang and Ying Wei
- Abstract要約: 上記の問題を緩和するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(FGAHOI)を提案する。
FGAHOIは、マルチスケールサンプリング(MSS)、階層空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 4.534713782093219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI), as an important problem in computer vision,
requires locating the human-object pair and identifying the interactive
relationships between them. The HOI instance has a greater span in spatial,
scale, and task than the individual object instance, making its detection more
susceptible to noisy backgrounds. To alleviate the disturbance of noisy
backgrounds on HOI detection, it is necessary to consider the input image
information to generate fine-grained anchors which are then leveraged to guide
the detection of HOI instances. However, it is challenging for the following
reasons. i) how to extract pivotal features from the images with complex
background information is still an open question. ii) how to semantically align
the extracted features and query embeddings is also a difficult issue. In this
paper, a novel end-to-end transformer-based framework (FGAHOI) is proposed to
alleviate the above problems. FGAHOI comprises three dedicated components
namely, multi-scale sampling (MSS), hierarchical spatial-aware merging (HSAM)
and task-aware merging mechanism (TAM). MSS extracts features of humans,
objects and interaction areas from noisy backgrounds for HOI instances of
various scales. HSAM and TAM semantically align and merge the extracted
features and query embeddings in the hierarchical spatial and task perspectives
in turn. In the meanwhile, a novel training strategy Stage-wise Training
Strategy is designed to reduce the training pressure caused by overly complex
tasks done by FGAHOI. In addition, we propose two ways to measure the
difficulty of HOI detection and a novel dataset, i.e., HOI-SDC for the two
challenges (Uneven Distributed Area in Human-Object Pairs and Long Distance
Visual Modeling of Human-Object Pairs) of HOI instances detection.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、コンピュータビジョンにおいて重要な問題である。
HOIインスタンスは、個々のオブジェクトインスタンスよりも空間、スケール、タスクが広いため、ノイズの多いバックグラウンドに対してより影響を受けやすい。
HOI検出におけるノイズの多い背景の乱れを軽減するためには、HOIインスタンスの検出を誘導するために利用するきめ細かいアンカーを生成するための入力画像情報を検討する必要がある。
しかし、次のような理由から困難である。
i) 複雑な背景情報を用いて画像から重要な特徴を抽出する方法はまだ未解決の問題だ。
ii) 抽出した機能とクエリの埋め込みを意味的に調整する方法も難しい問題である。
本稿では、この問題を解決するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(fgahoi)を提案する。
FGAHOIは、マルチスケールサンプリング(MSS)、階層的空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
MSSは、様々なスケールのHOIインスタンスのために、ノイズの多い背景から人、物、相互作用領域の特徴を抽出する。
HSAMとTAMは、抽出した特徴とクエリの埋め込みを階層的空間およびタスクの観点で意味的に整合し、マージする。
一方、FGAHOIによる過度に複雑な作業による訓練圧を低減するため、新たな訓練戦略であるStage-wise Training Strategyが設計された。
さらに、hoiインスタンス検出の難易度を測定する2つの方法を提案し、hoiインスタンス検出の2つの課題(人間-オブジェクトペアの分散領域と人間-オブジェクトペアの遠距離ビジュアルモデリング)に対する新しいデータセットを提案する。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person
Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。
私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。
我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-07T10:04:12Z) - Self-Supervised Interactive Object Segmentation Through a
Singulation-and-Grasping Approach [9.029861710944704]
本稿では,新しいオブジェクトと対話し,各オブジェクトのトレーニングラベルを収集するロボット学習手法を提案する。
Singulation-and-Grasping(SaG)ポリシは、エンドツーエンドの強化学習を通じてトレーニングされる。
本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。
論文 参考訳(メタデータ) (2022-07-19T15:01:36Z) - MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction
Detection [21.296007737406494]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、画像から人間、オブジェクト、インタラクションのセットを識別するタスクである。
近年の研究では、HOI検出における多くの手設計コンポーネントの必要性を解消するトランスフォーマーエンコーダデコーダアーキテクチャが提案されている。
本稿では,HOI検出用マルチスケールTRansformer (MSTR) を提案する。
論文 参考訳(メタデータ) (2022-03-28T12:58:59Z) - QAHOI: Query-Based Anchors for Human-Object Interaction Detection [29.548384966666013]
1段階のアプローチは、高い効率性のため、このタスクの新たなトレンドになっている。
本稿では、クエリベースのアンカーを用いてHOIインスタンスのすべての要素を予測するトランスフォーマーベースのQAHOIを提案する。
我々は, 強力なバックボーンがQAHOIの精度を大幅に向上させ, トランスフォーマーベースのバックボーンを用いたQAHOIは, HICO-DETベンチマークにおいて, 最新の最先端手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-12-16T05:52:23Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。