論文の概要: Co-Speech Gesture Detection through Multi-Phase Sequence Labeling
- arxiv url: http://arxiv.org/abs/2308.10680v2
- Date: Tue, 23 Apr 2024 15:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 20:04:56.903043
- Title: Co-Speech Gesture Detection through Multi-Phase Sequence Labeling
- Title(参考訳): 多相ラベリングによる音声同時ジェスチャ検出
- Authors: Esam Ghaleb, Ilya Burenko, Marlou Rasenberg, Wim Pouw, Peter Uhrig, Judith Holler, Ivan Toni, Aslı Özyürek, Raquel Fernández,
- Abstract要約: 本稿では,タスクをマルチフェーズシーケンスラベリング問題として再編成する新しいフレームワークを提案する。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
- 参考スコア(独自算出の注目度): 3.924524252255593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gestures are integral components of face-to-face communication. They unfold over time, often following predictable movement phases of preparation, stroke, and retraction. Yet, the prevalent approach to automatic gesture detection treats the problem as binary classification, classifying a segment as either containing a gesture or not, thus failing to capture its inherently sequential and contextual nature. To address this, we introduce a novel framework that reframes the task as a multi-phase sequence labeling problem rather than binary classification. Our model processes sequences of skeletal movements over time windows, uses Transformer encoders to learn contextual embeddings, and leverages Conditional Random Fields to perform sequence labeling. We evaluate our proposal on a large dataset of diverse co-speech gestures in task-oriented face-to-face dialogues. The results consistently demonstrate that our method significantly outperforms strong baseline models in detecting gesture strokes. Furthermore, applying Transformer encoders to learn contextual embeddings from movement sequences substantially improves gesture unit detection. These results highlight our framework's capacity to capture the fine-grained dynamics of co-speech gesture phases, paving the way for more nuanced and accurate gesture detection and analysis.
- Abstract(参考訳): ジェスチャーは対面コミュニケーションの不可欠な構成要素である。
時間とともに展開し、しばしば準備、ストローク、リトラクションの予測可能な動きの段階を辿る。
しかし、自動ジェスチャー検出の一般的なアプローチは、この問題をバイナリ分類として扱い、セグメントをジェスチャを含むか否かのどちらかとして分類し、本質的にシーケンシャルで文脈的な性質を捉えない。
そこで本研究では,タスクを二項分類ではなく多相シーケンスラベリング問題として再編成する新しいフレームワークを提案する。
我々のモデルは、時間ウィンドウ上で骨格の動きのシーケンスを処理し、Transformerエンコーダを使用して文脈埋め込みを学習し、条件ランダム場を利用してシーケンスラベリングを行う。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
その結果,ジェスチャ・ストロークの検出において,本手法が強いベースラインモデルよりも優れていることが示された。
さらに、動作シーケンスからコンテキスト埋め込みを学習するためにTransformerエンコーダを適用することで、ジェスチャー単位の検出を大幅に改善する。
これらの結果から,より微妙で正確なジェスチャー検出と解析を行う上で,協調音声のジェスチャー位相の微粒なダイナミクスを捉えることのできるフレームワークの能力を強調した。
関連論文リスト
- Transformer with Controlled Attention for Synchronous Motion Captioning [0.0]
本稿では,人間の動作シーケンスに同期した言語記述を生成することを目的とした,同期動作キャプションという課題に対処する。
本手法では,トランスフォーマーの自己および横断的な分布を制御する機構を導入し,解釈可能性と時刻整合テキスト生成を実現する。
我々は、KIT-MLとHumanML3Dという2つのベンチマークデータセットの評価を通じて、我々のアプローチの優れた性能を実証する。
論文 参考訳(メタデータ) (2024-09-13T20:30:29Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Leveraging Speech for Gesture Detection in Multimodal Communication [3.798147784987455]
ジェスチャーは人間のインタラクションに固有のものであり、対面コミュニケーションにおいてしばしば音声を補完し、マルチモーダル通信システムを形成する。
自動ジェスチャー検出の研究は、主に視覚的および運動学的情報に焦点を当て、低可変性で孤立した、あるいは無音なジェスチャーの限られたセットを検知し、音声や視覚信号の統合を無視して、音声と共起するジェスチャーを検出する。
本研究は,共同音声ジェスチャー検出に焦点をあて,音声と共同音声ジェスチャーの同期を強調することで,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-23T11:54:05Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech
Gesture Synthesis [0.0]
本稿では,量子化パイプラインを用いた生成逆数ネットワークを用いて,事前学習した部分的ジェスチャー列に対するアプローチを提案する。
空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、非常に現実的で表現力のあるジェスチャーの生成を促進する。
論文 参考訳(メタデータ) (2023-05-02T07:59:38Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - A Fine-Grained Visual Attention Approach for Fingerspelling Recognition
in the Wild [17.8181080354116]
指音の自動認識は、聴覚障害者との対話におけるコミュニケーション障壁の解消に役立つ。
指先認識における主な課題は、ジェスチャーのあいまいさと手の強い明瞭さである。
野生データセットのシーケンシャル・トゥ・シークエンス予測タスクにTransformerモデルを用いた微細な視覚的注意メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。