論文の概要: Co-Speech Gesture Detection through Multi-phase Sequence Labeling
- arxiv url: http://arxiv.org/abs/2308.10680v1
- Date: Mon, 21 Aug 2023 12:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:38:38.404711
- Title: Co-Speech Gesture Detection through Multi-phase Sequence Labeling
- Title(参考訳): 多相ラベリングによる音声同時ジェスチャー検出
- Authors: Esam Ghaleb, Ilya Burenko, Marlou Rasenberg, Wim Pouw, Peter Uhrig,
Judith Holler, Ivan Toni, Asl{\i} \"Ozy\"urek and Raquel Fern\'andez
- Abstract要約: 本稿では,タスクをマルチフェーズシーケンスラベリング問題として再編成する新しいフレームワークを提案する。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
- 参考スコア(独自算出の注目度): 0.5127296889061611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gestures are integral components of face-to-face communication. They unfold
over time, often following predictable movement phases of preparation, stroke,
and retraction. Yet, the prevalent approach to automatic gesture detection
treats the problem as binary classification, classifying a segment as either
containing a gesture or not, thus failing to capture its inherently sequential
and contextual nature. To address this, we introduce a novel framework that
reframes the task as a multi-phase sequence labeling problem rather than binary
classification. Our model processes sequences of skeletal movements over time
windows, uses Transformer encoders to learn contextual embeddings, and
leverages Conditional Random Fields to perform sequence labeling. We evaluate
our proposal on a large dataset of diverse co-speech gestures in task-oriented
face-to-face dialogues. The results consistently demonstrate that our method
significantly outperforms strong baseline models in detecting gesture strokes.
Furthermore, applying Transformer encoders to learn contextual embeddings from
movement sequences substantially improves gesture unit detection. These results
highlight our framework's capacity to capture the fine-grained dynamics of
co-speech gesture phases, paving the way for more nuanced and accurate gesture
detection and analysis.
- Abstract(参考訳): ジェスチャーは対面コミュニケーションの不可欠な要素である。
時間とともに展開し、しばしば準備、ストローク、リトラクションの予測可能な動きの段階を辿る。
しかし、自動ジェスチャー検出への一般的なアプローチでは、問題をバイナリ分類として扱い、セグメントをジェスチャを含むか、そうでないかのどちらかに分類する。
そこで本研究では,タスクを二項分類ではなく多相列ラベル問題として再編成する新しいフレームワークを提案する。
モデルでは,時間的ウィンドウ上の骨格運動のシーケンスを処理し,トランスフォーマーエンコーダを用いてコンテキスト埋め込みを学習し,条件付き確率場を利用してシーケンスラベリングを行う。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
その結果,本手法はジェスチャストロークの検出において,強いベースラインモデルを大きく上回っていることがわかった。
さらに、トランスフォーマエンコーダを適用して動きシーケンスから文脈埋め込みを学習することにより、ジェスチャー単位の検出が大幅に向上する。
これらの結果から,より微妙で高精度なジェスチャー検出と解析を行う上で,協調音声のジェスチャー位相のきめ細かいダイナミックスを捕捉するフレームワークの能力を強調した。
関連論文リスト
- Transformer with Controlled Attention for Synchronous Motion Captioning [0.0]
本稿では,人間の動作シーケンスに同期した言語記述を生成することを目的とした,同期動作キャプションという課題に対処する。
本手法では,トランスフォーマーの自己および横断的な分布を制御する機構を導入し,解釈可能性と時刻整合テキスト生成を実現する。
我々は、KIT-MLとHumanML3Dという2つのベンチマークデータセットの評価を通じて、我々のアプローチの優れた性能を実証する。
論文 参考訳(メタデータ) (2024-09-13T20:30:29Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Leveraging Speech for Gesture Detection in Multimodal Communication [3.798147784987455]
ジェスチャーは人間のインタラクションに固有のものであり、対面コミュニケーションにおいてしばしば音声を補完し、マルチモーダル通信システムを形成する。
自動ジェスチャー検出の研究は、主に視覚的および運動学的情報に焦点を当て、低可変性で孤立した、あるいは無音なジェスチャーの限られたセットを検知し、音声や視覚信号の統合を無視して、音声と共起するジェスチャーを検出する。
本研究は,共同音声ジェスチャー検出に焦点をあて,音声と共同音声ジェスチャーの同期を強調することで,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-23T11:54:05Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech
Gesture Synthesis [0.0]
本稿では,量子化パイプラインを用いた生成逆数ネットワークを用いて,事前学習した部分的ジェスチャー列に対するアプローチを提案する。
空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、非常に現実的で表現力のあるジェスチャーの生成を促進する。
論文 参考訳(メタデータ) (2023-05-02T07:59:38Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - A Fine-Grained Visual Attention Approach for Fingerspelling Recognition
in the Wild [17.8181080354116]
指音の自動認識は、聴覚障害者との対話におけるコミュニケーション障壁の解消に役立つ。
指先認識における主な課題は、ジェスチャーのあいまいさと手の強い明瞭さである。
野生データセットのシーケンシャル・トゥ・シークエンス予測タスクにTransformerモデルを用いた微細な視覚的注意メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。