論文の概要: FHA-Kitchens: A Novel Dataset for Fine-Grained Hand Action Recognition
in Kitchen Scenes
- arxiv url: http://arxiv.org/abs/2306.10858v1
- Date: Mon, 19 Jun 2023 11:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:57:17.265692
- Title: FHA-Kitchens: A Novel Dataset for Fine-Grained Hand Action Recognition
in Kitchen Scenes
- Title(参考訳): FHA-Kitchens: キッチンシーンにおける手の動き認識のための新しいデータセット
- Authors: Ting Zhe, Yongqian Li, Jing Zhang, Yong Luo, Han Hu, Bo Du, Yonggang
Wen, Dacheng Tao
- Abstract要約: キッチンシーンにおける手の動きのきめ細かいデータセットであるFHA-Kitchensを提案する。
本データセットは,8種類の料理から収集した2,377本のビデオクリップと30,047枚の画像からなる。
構築したデータセットに基づいて、代表的行動認識および検出モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 92.95591601807747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A typical task in the field of video understanding is hand action
recognition, which has a wide range of applications. Existing works either
mainly focus on full-body actions, or the defined action categories are
relatively coarse-grained. In this paper, we propose FHA-Kitchens, a novel
dataset of fine-grained hand actions in kitchen scenes. In particular, we focus
on human hand interaction regions and perform deep excavation to further refine
hand action information and interaction regions. Our FHA-Kitchens dataset
consists of 2,377 video clips and 30,047 images collected from 8 different
types of dishes, and all hand interaction regions in each image are labeled
with high-quality fine-grained action classes and bounding boxes. We represent
the action information in each hand interaction region as a triplet, resulting
in a total of 878 action triplets. Based on the constructed dataset, we
benchmark representative action recognition and detection models on the
following three tracks: (1) supervised learning for hand interaction region and
object detection, (2) supervised learning for fine-grained hand action
recognition, and (3) intra- and inter-class domain generalization for hand
interaction region detection. The experimental results offer compelling
empirical evidence that highlights the challenges inherent in fine-grained hand
action recognition, while also shedding light on potential avenues for future
research, particularly in relation to pre-training strategy, model design, and
domain generalization. The dataset will be released at
https://github.com/tingZ123/FHA-Kitchens.
- Abstract(参考訳): ビデオ理解の分野で典型的なタスクは手の動き認識であり、幅広い応用がある。
既存の作業は主にフルボディアクションに焦点を当てるか、定義されたアクションカテゴリは比較的粗い粒度である。
本稿では,キッチンシーンにおける手の動きのきめ細かいデータセットであるFHA-Kitchensを提案する。
特に,人間の手操作領域に着目し,手動作情報やインタラクション領域をさらに洗練するための深層掘削を行う。
fha-kitchensデータセットは,8種類の食器から収集した2,377種類のビデオクリップと30,047枚の画像からなり,各画像のハンドインタラクション領域は高品質な細粒度アクションクラスとバウンディングボックスでラベル付けされる。
我々は,各手操作領域の動作情報を三重項として表現し,その結果,合計878個のアクション三重項が得られた。
構築したデータセットに基づいて,(1)ハンドインタラクション領域とオブジェクト検出のための教師付き学習,(2)細粒度ハンドアクション認識のための教師付き学習,(3)ハンドインタラクション領域検出のためのクラス内およびクラス間ドメイン一般化の3つのトラック上で,代表動作認識と検出モデルをベンチマークした。
実験の結果は、手の動き認識に固有の課題を強調しつつ、特に事前学習戦略、モデル設計、ドメインの一般化に関して、将来の研究の潜在的な道筋に光を当てている。
データセットはhttps://github.com/tingZ123/FHA-Kitchensでリリースされる。
関連論文リスト
- Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task
Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。
我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。
MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文 参考訳(メタデータ) (2022-11-06T14:58:21Z) - Fine-grained Hand Gesture Recognition in Multi-viewpoint Hand Hygiene [3.588453140011797]
本稿では「MFH」という手指のジェスチャー認識のための高品質データセットを提案する。
上記の問題に対処するため、MFHデータセットには、異なるカメラビューから得られた合計731147のサンプルを6つの非重複領域に含めることが提案されている。
論文 参考訳(メタデータ) (2021-09-07T08:14:15Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Human Action Recognition Based on Multi-scale Feature Maps from Depth
Video Sequences [12.30399970340689]
深度ビデオシーケンスから人間の行動を認識するために,マルチスケールなモーション情報に着目した新しいフレームワークを提案する。
動作のマルチスケールな静的表現を生成するために,テンプレートとして深度動き画像(DMI)を用いる。
LP-DMI-HOGと呼ばれる多粒性記述子を抽出し、より識別的な特徴を提供する。
論文 参考訳(メタデータ) (2021-01-19T13:46:42Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。