Fugu-MT 論文翻訳(概要): FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection

論文の概要: FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection

arxiv url: http://arxiv.org/abs/2301.04019v1
Date: Sun, 8 Jan 2023 03:53:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 16:53:41.964394
Title: FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection
Title（参考訳）: FGAHOI:人間と物体の相互作用検出のための微細アンカー
Authors: Shuailei Ma, Yuefeng Wang, Shanze Wang and Ying Wei
Abstract要約: 上記の問題を緩和するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(FGAHOI)を提案する。 FGAHOIは、マルチスケールサンプリング(MSS)、階層空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
参考スコア（独自算出の注目度）: 4.534713782093219
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human-Object Interaction (HOI), as an important problem in computer vision, requires locating the human-object pair and identifying the interactive relationships between them. The HOI instance has a greater span in spatial, scale, and task than the individual object instance, making its detection more susceptible to noisy backgrounds. To alleviate the disturbance of noisy backgrounds on HOI detection, it is necessary to consider the input image information to generate fine-grained anchors which are then leveraged to guide the detection of HOI instances. However, it is challenging for the following reasons. i) how to extract pivotal features from the images with complex background information is still an open question. ii) how to semantically align the extracted features and query embeddings is also a difficult issue. In this paper, a novel end-to-end transformer-based framework (FGAHOI) is proposed to alleviate the above problems. FGAHOI comprises three dedicated components namely, multi-scale sampling (MSS), hierarchical spatial-aware merging (HSAM) and task-aware merging mechanism (TAM). MSS extracts features of humans, objects and interaction areas from noisy backgrounds for HOI instances of various scales. HSAM and TAM semantically align and merge the extracted features and query embeddings in the hierarchical spatial and task perspectives in turn. In the meanwhile, a novel training strategy Stage-wise Training Strategy is designed to reduce the training pressure caused by overly complex tasks done by FGAHOI. In addition, we propose two ways to measure the difficulty of HOI detection and a novel dataset, i.e., HOI-SDC for the two challenges (Uneven Distributed Area in Human-Object Pairs and Long Distance Visual Modeling of Human-Object Pairs) of HOI instances detection.
Abstract（参考訳）: ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、コンピュータビジョンにおいて重要な問題である。 HOIインスタンスは、個々のオブジェクトインスタンスよりも空間、スケール、タスクが広いため、ノイズの多いバックグラウンドに対してより影響を受けやすい。 HOI検出におけるノイズの多い背景の乱れを軽減するためには、HOIインスタンスの検出を誘導するために利用するきめ細かいアンカーを生成するための入力画像情報を検討する必要がある。しかし、次のような理由から困難である。 i) 複雑な背景情報を用いて画像から重要な特徴を抽出する方法はまだ未解決の問題だ。 ii) 抽出した機能とクエリの埋め込みを意味的に調整する方法も難しい問題である。本稿では、この問題を解決するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(fgahoi)を提案する。 FGAHOIは、マルチスケールサンプリング(MSS)、階層的空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。 MSSは、様々なスケールのHOIインスタンスのために、ノイズの多い背景から人、物、相互作用領域の特徴を抽出する。 HSAMとTAMは、抽出した特徴とクエリの埋め込みを階層的空間およびタスクの観点で意味的に整合し、マージする。一方、FGAHOIによる過度に複雑な作業による訓練圧を低減するため、新たな訓練戦略であるStage-wise Training Strategyが設計された。さらに、hoiインスタンス検出の難易度を測定する2つの方法を提案し、hoiインスタンス検出の2つの課題(人間-オブジェクトペアの分散領域と人間-オブジェクトペアの遠距離ビジュアルモデリング)に対する新しいデータセットを提案する。

関連論文リスト

Towards Robust and Realistic Human Pose Estimation via WiFi Signals [85.60557095666934]
WiFiベースの人間のポーズ推定は、離散的で微妙なWiFi信号を人間の骨格にブリッジする難しいタスクである。本論文は,本問題を再検討し,(1)ドメイン間ギャップ,(2)ソース・ターゲット領域のポーズ分布の顕著な変化,(2)骨格のポーズが歪んだトポロジーを示す構造的フィデリティギャップ,の2つの重要な問題を明らかにする。本稿では,タスクをDT-Poseと呼ばれる新しい2段階のフレームワークに書き換えることで,これらのギャップを埋める:ドメイン一貫性表現学習とトポロジ制約ポスデコーディング。
論文参考訳（メタデータ） (2025-01-16T09:38:22Z)
Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文参考訳（メタデータ） (2024-12-22T03:25:43Z)
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。 RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文参考訳（メタデータ） (2024-10-11T08:28:04Z)
DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文参考訳（メタデータ） (2024-06-06T18:12:04Z)
Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文参考訳（メタデータ） (2024-04-01T14:53:36Z)
Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。 CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文参考訳（メタデータ） (2023-08-18T13:13:09Z)
PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-10-07T10:04:12Z)
Self-Supervised Interactive Object Segmentation Through a Singulation-and-Grasping Approach [9.029861710944704]
本稿では,新しいオブジェクトと対話し,各オブジェクトのトレーニングラベルを収集するロボット学習手法を提案する。 Singulation-and-Grasping(SaG)ポリシは、エンドツーエンドの強化学習を通じてトレーニングされる。本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。
論文参考訳（メタデータ） (2022-07-19T15:01:36Z)
MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction Detection [21.296007737406494]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、画像から人間、オブジェクト、インタラクションのセットを識別するタスクである。近年の研究では、HOI検出における多くの手設計コンポーネントの必要性を解消するトランスフォーマーエンコーダデコーダアーキテクチャが提案されている。本稿では,HOI検出用マルチスケールTRansformer (MSTR) を提案する。
論文参考訳（メタデータ） (2022-03-28T12:58:59Z)
QAHOI: Query-Based Anchors for Human-Object Interaction Detection [29.548384966666013]
1段階のアプローチは、高い効率性のため、このタスクの新たなトレンドになっている。本稿では、クエリベースのアンカーを用いてHOIインスタンスのすべての要素を予測するトランスフォーマーベースのQAHOIを提案する。我々は, 強力なバックボーンがQAHOIの精度を大幅に向上させ, トランスフォーマーベースのバックボーンを用いたQAHOIは, HICO-DETベンチマークにおいて, 最新の最先端手法よりも高い性能を示した。
論文参考訳（メタデータ） (2021-12-16T05:52:23Z)
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。 BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文参考訳（メタデータ） (2020-10-22T17:49:25Z)
Tasks Integrated Networks: Joint Detection and Retrieval for Image Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文参考訳（メタデータ） (2020-09-03T03:57:50Z)
DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文参考訳（メタデータ） (2020-08-26T17:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。