Fugu-MT 論文翻訳(概要): Multi-Granularity Hand Action Detection

論文の概要: Multi-Granularity Hand Action Detection

arxiv url: http://arxiv.org/abs/2306.10858v2
Date: Fri, 9 Aug 2024 18:19:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 01:08:32.383064
Title: Multi-Granularity Hand Action Detection
Title（参考訳）: 多粒性ハンドアクション検出
Authors: Ting Zhe, Jing Zhang, Yongqian Li, Yong Luo, Han Hu, Dacheng Tao,
Abstract要約: FHA-Kitchensデータセットは2,377のビデオクリップと30,047フレームで構成され、約200kのバウンディングボックスと880のアクションカテゴリがアノテートされている。このデータセットは2,377のビデオクリップと30,047フレームで構成され、約200kのバウンディングボックスと880のアクションカテゴリが注釈付けされている。 MG-HAD (End-to-End Multi-Granularity Hand Action Detection) を提案する。
参考スコア（独自算出の注目度）: 58.88274905101276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Detecting hand actions in videos is crucial for understanding video content and has diverse real-world applications. Existing approaches often focus on whole-body actions or coarse-grained action categories, lacking fine-grained hand-action localization information. To fill this gap, we introduce the FHA-Kitchens (Fine-Grained Hand Actions in Kitchen Scenes) dataset, providing both coarse- and fine-grained hand action categories along with localization annotations. This dataset comprises 2,377 video clips and 30,047 frames, annotated with approximately 200k bounding boxes and 880 action categories. Evaluation of existing action detection methods on FHA-Kitchens reveals varying generalization capabilities across different granularities. To handle multi-granularity in hand actions, we propose MG-HAD, an End-to-End Multi-Granularity Hand Action Detection method. It incorporates two new designs: Multi-dimensional Action Queries and Coarse-Fine Contrastive Denoising. Extensive experiments demonstrate MG-HAD's effectiveness for multi-granularity hand action detection, highlighting the significance of FHA-Kitchens for future research and real-world applications. The dataset and source code are available at https://github.com/superZ678/MG-HAD.
Abstract（参考訳）: ビデオ中の手の動きを検出することは、ビデオコンテンツを理解するのに不可欠であり、様々な現実世界の応用がある。既存のアプローチは、ボディ全体のアクションや粗粒度のアクションカテゴリに焦点を合わせ、細かい手動のローカライゼーション情報を欠いていることが多い。このギャップを埋めるために、我々はFHA-Kitchensデータセット(Kitchen ScenesのFine-Grained Hand Actions)を導入し、ローカライゼーションアノテーションとともに、粗い手アクションときめ細かな手アクションのカテゴリを提供する。このデータセットは2,377のビデオクリップと30,047フレームで構成され、約200kのバウンディングボックスと880のアクションカテゴリが注釈付けされている。 FHA-Kitchensにおける既存の動作検出手法の評価は、粒度によって異なる一般化能力を示す。ハンドアクションにおける多粒度処理を行うために,エンド・ツー・エンドの多粒度ハンドアクション検出法MG-HADを提案する。多次元Action QueriesとCoarse-Fine Contrastive Denoisingという2つの新しいデザインが組み込まれている。大規模な実験では、MG-HADが多粒性ハンドアクション検出に有効であることを示し、将来の研究や実世界の応用におけるFHA-Kitchensの重要性を強調している。データセットとソースコードはhttps://github.com/superZ678/MG-HADで入手できる。

関連論文リスト

ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding [31.481969919049472]
ActionArtは、人間中心のマルチモーダル理解の研究を促進するために設計された、きめ細かいビデオキャプチャデータセットである。私たちのデータセットは、幅広い人間の行動、人間とオブジェクトの相互作用、さまざまなシナリオをキャプチャする何千ものビデオで構成されています。本研究では,異なる次元にまたがる既存大規模マルチモーダルモデルの細粒度理解能力を評価するために,8つのサブタスクを開発した。
論文参考訳（メタデータ） (2025-04-25T08:05:32Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。 textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文参考訳（メタデータ） (2023-08-06T09:15:14Z)
MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。 MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文参考訳（メタデータ） (2022-11-06T14:58:21Z)
Fine-grained Hand Gesture Recognition in Multi-viewpoint Hand Hygiene [3.588453140011797]
本稿では「MFH」という手指のジェスチャー認識のための高品質データセットを提案する。上記の問題に対処するため、MFHデータセットには、異なるカメラビューから得られた合計731147のサンプルを6つの非重複領域に含めることが提案されている。
論文参考訳（メタデータ） (2021-09-07T08:14:15Z)
Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文参考訳（メタデータ） (2021-08-15T02:21:01Z)
Human Action Recognition Based on Multi-scale Feature Maps from Depth Video Sequences [12.30399970340689]
深度ビデオシーケンスから人間の行動を認識するために,マルチスケールなモーション情報に着目した新しいフレームワークを提案する。動作のマルチスケールな静的表現を生成するために,テンプレートとして深度動き画像(DMI)を用いる。 LP-DMI-HOGと呼ばれる多粒性記述子を抽出し、より識別的な特徴を提供する。
論文参考訳（メタデータ） (2021-01-19T13:46:42Z)
FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文参考訳（メタデータ） (2020-04-14T17:55:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。