論文の概要: FingerCap: Fine-grained Finger-level Hand Motion Captioning
- arxiv url: http://arxiv.org/abs/2511.16951v1
- Date: Fri, 21 Nov 2025 04:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.890015
- Title: FingerCap: Fine-grained Finger-level Hand Motion Captioning
- Title(参考訳): FingerCap:微細なフィンガーレベルのハンドモーション・キャプション
- Authors: Xin Shen, Rui Zhu, Lei Shen, Xinyu Wang, Kaihao Zhang, Tianqing Zhu, Shuchen Wu, Chenxi Miao, Weikang Li, Yang Li, Deguo Xia, Jizhou Huang, Xin Yu,
- Abstract要約: きめ細かい指レベルハンドモーションキャプションは、手の動きの詳細な指レベルセマンティクスを生成することを目的としている。
このタスクをサポートするために、40Kペアのハンドモーションビデオとキャプションの大規模なコーパスであるFingerCap-40Kをキュレートする。
FingerCap-40Kの実験によると、強力なオープンソースとクローズドソースのVideo-MLLMは今でも指レベルの推論に苦戦している。
- 参考スコア(独自算出の注目度): 44.18347733095312
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding fine-grained human hand motion is fundamental to visual perception, embodied intelligence, and multimodal communication. In this work, we propose Fine-grained Finger-level Hand Motion Captioning (FingerCap), which aims to generate textual descriptions that capture detailed finger-level semantics of hand actions. To support this task, we curate FingerCap-40K, a large-scale corpus of 40K paired hand-motion videos and captions spanning two complementary sources: concise instruction-style finger motions and diverse, naturalistic hand-object interactions. To enable effective evaluation, we employ HandJudge, a LLM-based rubric that measures finger-level correctness and motion completeness. Temporal sparsity remains a fundamental bottleneck for current Video-MLLMs, since sparse RGB sampling is insufficient to capture the subtle, high-frequency dynamics underlying fine finger motions. As a simple and compute-friendly remedy, we introduce FiGOP (Finger Group-of-Pictures), which pairs each RGB keyframe with subsequent hand keypoints until the next keyframe. A lightweight temporal encoder converts the keypoints into motion embeddings and integrates them with RGB features. FiGOP adapts the classic GOP concept to finger motion, recovering fine temporal cues without increasing RGB density. Experiments on FingerCap-40K show that strong open- and closed-source Video-MLLMs still struggle with finger-level reasoning, while our FiGOP-augmented model yield consistent gains under HandJudge and human studies.
- Abstract(参考訳): きめ細かい人間の手の動きを理解することは、視覚知覚、具体的知性、マルチモーダルコミュニケーションの基本である。
本研究では,手の動きの詳細な指レベルの意味を捉えるテキスト記述を生成することを目的とした,手指レベルの細粒度移動キャプション(FingerCap)を提案する。
この課題を支援するために,FingerCap-40Kという,簡潔な指の動きと,多種多様で自然主義的な手動物体の相互作用という2つの相補的なソースにまたがる40Kペア手動ビデオとキャプションの大規模なコーパスをキュレートした。
効果的な評価を実現するために,指の高さの正確さと動きの完全性を測定するLLMベースのルーブリックであるHandJudgeを用いる。
微小なRGBサンプリングは、微妙で高周波な指の動きを捉えるのに不十分であるため、現在のビデオMLLMの時間間隔は依然として基本的なボトルネックとなっている。
単純で計算に優しい手法として、各RGBキーフレームと次のキーフレームまでのハンドキーポイントをペアリングするFiGOP(Finger Group-of-Pictures)を導入する。
軽量時間エンコーダはキーポイントをモーション埋め込みに変換し、RGB機能と統合する。
FiGOPは古典的なGOPの概念を指の動きに適用し、RGB密度を増大させることなく微細な時間的手がかりを回復する。
FingerCap-40Kの実験では、強力なオープンソースとクローズドソースの Video-MLLM がまだ指レベルの推論に苦慮していることが示されています。
関連論文リスト
- HandReader: Advanced Techniques for Efficient Fingerspelling Recognition [75.38606213726906]
本稿では,指先認識タスクに対処するために設計された3つのアーキテクチャ群であるHandReaderを紹介する。
HandReader$_RGB$は、様々な長さのビデオからRGBの機能を処理するために、Adaptive Shift-Temporal Module (TSAM) という小説を使っている。
HandReader$_KP$は、キーポイントをテンソルとして操作するTPE(Temporal Pose)上に構築されている。
各HandReaderモデルは、それぞれ異なるアドバンテージを持ち、ChicagoFSWildとChicagoFSWild+データセットの最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-15T13:18:37Z) - Body-Hand Modality Expertized Networks with Cross-attention for Fine-grained Skeleton Action Recognition [28.174638880324014]
BHaRNetは、典型的なボディエキスパートモデルをハンドエキスパートモデルで拡張する新しいフレームワークである。
我々のモデルは、協調的な専門化を促進するアンサンブル損失で、両方のストリームを共同で訓練する。
MMNetに触発されて、RGB情報を活用することで、マルチモーダルタスクへのアプローチの適用性を実証する。
論文 参考訳(メタデータ) (2025-03-19T07:54:52Z) - Expressive Gaussian Human Avatars from Monocular RGB Video [69.56388194249942]
EVAは3DガウスとSMPL-Xに基づいて細部を巧みに彫刻する乾燥可能な人間モデルである。
SMPL-XモデルをRGBフレームに整合させることが,効果的なアバター学習において重要であることを強調した。
本稿では,勾配閾値を適応的に調整する適応密度制御戦略を提案する。
論文 参考訳(メタデータ) (2024-07-03T15:36:27Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - On-device Real-time Hand Gesture Recognition [1.4658400971135652]
本稿では,1台のRGBカメラから予め定義された静的ジェスチャーを検知するデバイス上でのリアルタイム手ジェスチャー認識(HGR)システムを提案する。
ハンドスケルトントラッカーの基礎としてMediaPipe Handsを使用し、キーポイント精度を改善し、世界距離空間における3次元キーポイントの推定を追加する。
論文 参考訳(メタデータ) (2021-10-29T18:33:25Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - A deep-learning--based multimodal depth-aware dynamic hand gesture
recognition system [5.458813674116228]
深度定量化画像ハンドスケルトン関節点を用いたダイナミックハンドジェスチャ認識(DHG)に着目した。
特に,CNNとリカレントニューラルネットワーク(Recurrent Neural Network, RNN)を用いたマルチモーダル核融合ネットワークにおける深度量子化の効果について検討する。
論文 参考訳(メタデータ) (2021-07-06T11:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。