論文の概要: OMG-Bench: A New Challenging Benchmark for Skeleton-based Online Micro Hand Gesture Recognition
- arxiv url: http://arxiv.org/abs/2512.16727v1
- Date: Thu, 18 Dec 2025 16:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.158245
- Title: OMG-Bench: A New Challenging Benchmark for Skeleton-based Online Micro Hand Gesture Recognition
- Title(参考訳): OMG-Bench: 骨格型オンラインマイクロハンドジェスチャ認識のための新しいベンチマーク
- Authors: Haochen Chang, Pengfei Ren, Buyuan Zhang, Da Li, Tianhao Han, Haoyang Zhang, Liang Xie, Hongbo Chen, Erwei Yin,
- Abstract要約: OMG-Benchは骨格ベースのオンラインマイクロジェスチャー認識のための最初の大規模ベンチマークである。
HMATrは、階層型メモリバンクを活用することでジェスチャー検出と分類を統一するエンドツーエンドフレームワークである。
実験では、HMATrは最先端の手法を7.6%上回っている。
- 参考スコア(独自算出の注目度): 15.24938776679168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online micro gesture recognition from hand skeletons is critical for VR/AR interaction but faces challenges due to limited public datasets and task-specific algorithms. Micro gestures involve subtle motion patterns, which make constructing datasets with precise skeletons and frame-level annotations difficult. To this end, we develop a multi-view self-supervised pipeline to automatically generate skeleton data, complemented by heuristic rules and expert refinement for semi-automatic annotation. Based on this pipeline, we introduce OMG-Bench, the first large-scale public benchmark for skeleton-based online micro gesture recognition. It features 40 fine-grained gesture classes with 13,948 instances across 1,272 sequences, characterized by subtle motions, rapid dynamics, and continuous execution. To tackle these challenges, we propose Hierarchical Memory-Augmented Transformer (HMATr), an end-to-end framework that unifies gesture detection and classification by leveraging hierarchical memory banks which store frame-level details and window-level semantics to preserve historical context. In addition, it employs learnable position-aware queries initialized from the memory to implicitly encode gesture positions and semantics. Experiments show that HMATr outperforms state-of-the-art methods by 7.6\% in detection rate, establishing a strong baseline for online micro gesture recognition. Project page: https://omg-bench.github.io/
- Abstract(参考訳): ハンドスケルトンからのオンラインのマイクロジェスチャー認識は、VR/ARインタラクションには不可欠だが、パブリックデータセットやタスク固有のアルゴリズムに制限があるため、課題に直面している。
マイクロジェスチャーは微妙な動きパターンを伴い、正確なスケルトンとフレームレベルのアノテーションを持つデータセットの構築が困難になる。
この目的のために,ヒューリスティックなルールとセミオートマチックなアノテーションの専門的改良によって補完されるスケルトンデータを自動的に生成する多視点自己教師パイプラインを開発した。
このパイプラインをベースとしたOMG-Benchは,スケルトンを用いたオンラインマイクロジェスチャー認識のための,最初の大規模公開ベンチマークである。
40のきめ細かいジェスチャクラスがあり、1,272のシーケンスに13,948のインスタンスがあり、微妙な動き、高速なダイナミクス、連続的な実行が特徴である。
これらの課題に対処するために、フレームレベルの詳細とウィンドウレベルのセマンティクスを保持する階層型メモリバンクを活用して、ジェスチャー検出と分類を統一するエンドツーエンドフレームワークである階層型メモリ拡張トランスフォーマー(HMATr)を提案する。
さらに、メモリから初期化された学習可能な位置認識クエリを使用して、ジェスチャーの位置と意味を暗黙的にエンコードする。
HMATrは検出率7.6\%で最先端の手法より優れており、オンラインマイクロジェスチャー認識の強力なベースラインを確立している。
プロジェクトページ: https://omg-bench.github.io/
関連論文リスト
- DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Micro-Expression Recognition via Fine-Grained Dynamic Perception [64.26947471761916]
顔マイクロ圧縮認識(MER)のためのFDPフレームワークを開発した。
時系列の原フレーム列のフレームレベルの特徴をランク付けし、ランク付けプロセスはMEの出現と動きの両方の動的情報をエンコードする。
提案手法は最先端のMER法よりも優れており,動的画像構築に有効である。
論文 参考訳(メタデータ) (2025-09-07T11:13:50Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Co-Speech Gesture Detection through Multi-Phase Sequence Labeling [3.924524252255593]
本稿では,タスクをマルチフェーズシーケンスラベリング問題として再編成する新しいフレームワークを提案する。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
論文 参考訳(メタデータ) (2023-08-21T12:27:18Z) - SkeletonMAE: Spatial-Temporal Masked Autoencoders for Self-supervised
Skeleton Action Recognition [13.283178393519234]
自己監督型骨格に基づく行動認識が注目されている。
ラベルのないデータを利用することで、オーバーフィッティング問題を緩和するためにより一般化可能な特徴を学ぶことができる。
自己教師型3次元骨格に基づく行動認識のための空間時間マスク付きオートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-01T20:54:27Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。