論文の概要: Gestura: A LVLM-Powered System Bridging Motion and Semantics for Real-Time Free-Form Gesture Understanding
- arxiv url: http://arxiv.org/abs/2510.21814v1
- Date: Tue, 21 Oct 2025 14:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.906956
- Title: Gestura: A LVLM-Powered System Bridging Motion and Semantics for Real-Time Free-Form Gesture Understanding
- Title(参考訳): Gestura: リアルタイム自由形ジェスチャー理解のためのLVLM駆動システムブリドグモーションとセマンティクス
- Authors: Zhuoming Li, Aitong Liu, Mengxi Jia, Tengxiang Zhang, Dell Zhang, Xuelong Li,
- Abstract要約: 本稿では,自由形式のジェスチャー理解のためのエンドツーエンドシステムであるGesturaを提案する。
Gesturaは、訓練済みのLarge Vision-Language Modelを使用して、ハイレベルなセマンティックな概念と、非常にダイナミックで多様なフリーフォームジェスチャのパターンを整列する。
我々は,30万組以上の注釈付きQAペアを用いた自由形式のジェスチャー意図推論と理解のための,最初のオープンソースデータセットを開発した。
- 参考スコア(独自算出の注目度): 47.755931209942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Free-form gesture understanding is highly appealing for human-computer interaction, as it liberates users from the constraints of predefined gesture categories. However, the sole existing solution GestureGPT suffers from limited recognition accuracy and slow response times. In this paper, we propose Gestura, an end-to-end system for free-form gesture understanding. Gestura harnesses a pre-trained Large Vision-Language Model (LVLM) to align the highly dynamic and diverse patterns of free-form gestures with high-level semantic concepts. To better capture subtle hand movements across different styles, we introduce a Landmark Processing Module that compensate for LVLMs' lack of fine-grained domain knowledge by embedding anatomical hand priors. Further, a Chain-of-Thought (CoT) reasoning strategy enables step-by-step semantic inference, transforming shallow knowledge into deep semantic understanding and significantly enhancing the model's ability to interpret ambiguous or unconventional gestures. Together, these components allow Gestura to achieve robust and adaptable free-form gesture comprehension. Additionally, we have developed the first open-source dataset for free-form gesture intention reasoning and understanding with over 300,000 annotated QA pairs.
- Abstract(参考訳): 自由形式のジェスチャー理解は、事前に定義されたジェスチャーカテゴリの制約からユーザーを解放するため、人間とコンピュータのインタラクションに非常に魅力的である。
しかし、既存の唯一のソリューションであるGestureGPTは、認識精度の低下と応答時間の低下に悩まされている。
本稿では,自由形式のジェスチャー理解のためのエンドツーエンドシステムであるGesturaを提案する。
Gesturaは、LVLM(Large Vision-Language Model)を使用して、高度な動的かつ多様なフリーフォームジェスチャと高レベルのセマンティック概念を整合させる。
異なるスタイルの微妙な手の動きをより正確に捉えるために,LVLM の微細なドメイン知識の欠如を補うランドマーク処理モジュールを導入する。
さらに、Chain-of-Thought(CoT)推論戦略は、ステップバイステップのセマンティック推論を可能にし、浅い知識を深いセマンティック理解に変換し、曖昧さや非伝統的なジェスチャーを解釈するモデルの能力を著しく向上させる。
これらのコンポーネントによって、Gesturaは堅牢で適応可能な自由形式のジェスチャー理解を実現することができる。
さらに,30万組以上の注釈付きQAペアを用いた自由形式のジェスチャー意図推論と理解のための,最初のオープンソースデータセットを開発した。
関連論文リスト
- Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。