Fugu-MT 論文翻訳(概要): FHA-Kitchens: A Novel Dataset for Fine-Grained Hand Action Recognition in Kitchen Scenes

論文の概要: FHA-Kitchens: A Novel Dataset for Fine-Grained Hand Action Recognition in Kitchen Scenes

arxiv url: http://arxiv.org/abs/2306.10858v1
Date: Mon, 19 Jun 2023 11:21:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 17:57:17.265692
Title: FHA-Kitchens: A Novel Dataset for Fine-Grained Hand Action Recognition in Kitchen Scenes
Title（参考訳）: FHA-Kitchens: キッチンシーンにおける手の動き認識のための新しいデータセット
Authors: Ting Zhe, Yongqian Li, Jing Zhang, Yong Luo, Han Hu, Bo Du, Yonggang Wen, Dacheng Tao
Abstract要約: キッチンシーンにおける手の動きのきめ細かいデータセットであるFHA-Kitchensを提案する。本データセットは,8種類の料理から収集した2,377本のビデオクリップと30,047枚の画像からなる。構築したデータセットに基づいて、代表的行動認識および検出モデルをベンチマークする。
参考スコア（独自算出の注目度）: 92.95591601807747
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A typical task in the field of video understanding is hand action recognition, which has a wide range of applications. Existing works either mainly focus on full-body actions, or the defined action categories are relatively coarse-grained. In this paper, we propose FHA-Kitchens, a novel dataset of fine-grained hand actions in kitchen scenes. In particular, we focus on human hand interaction regions and perform deep excavation to further refine hand action information and interaction regions. Our FHA-Kitchens dataset consists of 2,377 video clips and 30,047 images collected from 8 different types of dishes, and all hand interaction regions in each image are labeled with high-quality fine-grained action classes and bounding boxes. We represent the action information in each hand interaction region as a triplet, resulting in a total of 878 action triplets. Based on the constructed dataset, we benchmark representative action recognition and detection models on the following three tracks: (1) supervised learning for hand interaction region and object detection, (2) supervised learning for fine-grained hand action recognition, and (3) intra- and inter-class domain generalization for hand interaction region detection. The experimental results offer compelling empirical evidence that highlights the challenges inherent in fine-grained hand action recognition, while also shedding light on potential avenues for future research, particularly in relation to pre-training strategy, model design, and domain generalization. The dataset will be released at https://github.com/tingZ123/FHA-Kitchens.
Abstract（参考訳）: ビデオ理解の分野で典型的なタスクは手の動き認識であり、幅広い応用がある。既存の作業は主にフルボディアクションに焦点を当てるか、定義されたアクションカテゴリは比較的粗い粒度である。本稿では,キッチンシーンにおける手の動きのきめ細かいデータセットであるFHA-Kitchensを提案する。特に,人間の手操作領域に着目し,手動作情報やインタラクション領域をさらに洗練するための深層掘削を行う。 fha-kitchensデータセットは,8種類の食器から収集した2,377種類のビデオクリップと30,047枚の画像からなり,各画像のハンドインタラクション領域は高品質な細粒度アクションクラスとバウンディングボックスでラベル付けされる。我々は,各手操作領域の動作情報を三重項として表現し,その結果,合計878個のアクション三重項が得られた。構築したデータセットに基づいて,(1)ハンドインタラクション領域とオブジェクト検出のための教師付き学習,(2)細粒度ハンドアクション認識のための教師付き学習,(3)ハンドインタラクション領域検出のためのクラス内およびクラス間ドメイン一般化の3つのトラック上で,代表動作認識と検出モデルをベンチマークした。実験の結果は、手の動き認識に固有の課題を強調しつつ、特に事前学習戦略、モデル設計、ドメインの一般化に関して、将来の研究の潜在的な道筋に光を当てている。データセットはhttps://github.com/tingZ123/FHA-Kitchensでリリースされる。

関連論文リスト

ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding [31.481969919049472]
ActionArtは、人間中心のマルチモーダル理解の研究を促進するために設計された、きめ細かいビデオキャプチャデータセットである。私たちのデータセットは、幅広い人間の行動、人間とオブジェクトの相互作用、さまざまなシナリオをキャプチャする何千ものビデオで構成されています。本研究では,異なる次元にまたがる既存大規模マルチモーダルモデルの細粒度理解能力を評価するために,8つのサブタスクを開発した。
論文参考訳（メタデータ） (2025-04-25T08:05:32Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。 textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文参考訳（メタデータ） (2023-08-06T09:15:14Z)
MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。 MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文参考訳（メタデータ） (2022-11-06T14:58:21Z)
Fine-grained Hand Gesture Recognition in Multi-viewpoint Hand Hygiene [3.588453140011797]
本稿では「MFH」という手指のジェスチャー認識のための高品質データセットを提案する。上記の問題に対処するため、MFHデータセットには、異なるカメラビューから得られた合計731147のサンプルを6つの非重複領域に含めることが提案されている。
論文参考訳（メタデータ） (2021-09-07T08:14:15Z)
Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文参考訳（メタデータ） (2021-08-15T02:21:01Z)
Human Action Recognition Based on Multi-scale Feature Maps from Depth Video Sequences [12.30399970340689]
深度ビデオシーケンスから人間の行動を認識するために,マルチスケールなモーション情報に着目した新しいフレームワークを提案する。動作のマルチスケールな静的表現を生成するために,テンプレートとして深度動き画像(DMI)を用いる。 LP-DMI-HOGと呼ばれる多粒性記述子を抽出し、より識別的な特徴を提供する。
論文参考訳（メタデータ） (2021-01-19T13:46:42Z)
FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文参考訳（メタデータ） (2020-04-14T17:55:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。