論文の概要: Understanding Co-speech Gestures in-the-wild
- arxiv url: http://arxiv.org/abs/2503.22668v1
- Date: Fri, 28 Mar 2025 17:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.792967
- Title: Understanding Co-speech Gestures in-the-wild
- Title(参考訳): 複合音声ジェスチャの理解
- Authors: Sindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman,
- Abstract要約: 野生における音声ジェスチャー理解のための新しいフレームワークを提案する。
本稿では,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。
我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 52.5993021523165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-speech gestures play a vital role in non-verbal communication. In this paper, we introduce a new framework for co-speech gesture understanding in the wild. Specifically, we propose three new tasks and benchmarks to evaluate a model's capability to comprehend gesture-text-speech associations: (i) gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker detection using gestures. We present a new approach that learns a tri-modal speech-text-video-gesture representation to solve these tasks. By leveraging a combination of global phrase contrastive loss and local gesture-word coupling loss, we demonstrate that a strong gesture representation can be learned in a weakly supervised manner from videos in the wild. Our learned representations outperform previous methods, including large vision-language models (VLMs), across all three tasks. Further analysis reveals that speech and text modalities capture distinct gesture-related signals, underscoring the advantages of learning a shared tri-modal embedding space. The dataset, model, and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegal
- Abstract(参考訳): 共同音声ジェスチャーは、非言語コミュニケーションにおいて重要な役割を果たす。
本稿では,野生における音声ジェスチャー理解のための新しい枠組みを提案する。
具体的には,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。
(i)ジェスチャーに基づく検索
(二)ジェスチャーによる単語のスポッティング、及び
3)ジェスチャーを用いた能動型話者検出
我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
グローバルなフレーズのコントラッシブ・ロスと局所的なジェスチャーと単語のカップリング・ロスの組み合わせを利用して、野生の動画から強いジェスチャー表現を弱教師付きで学習できることを実証した。
学習した表現は,3つのタスクすべてにわたって,大きな視覚言語モデル(VLM)を含む従来の手法よりも優れていた。
さらに分析したところ、音声とテキストのモダリティが異なるジェスチャー関連信号をキャプチャし、共有された三モーダル埋め込み空間を学習する利点を浮き彫りにしていることがわかった。
データセット、モデル、コードは、https://www.robots.ox.ac.uk/~vgg/research/jegal.comで入手できる。
関連論文リスト
- Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues [56.36041287155606]
本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。
ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。
その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
論文 参考訳(メタデータ) (2025-03-05T13:10:07Z) - I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue [5.0332064683666005]
本稿では,表現ジェスチャを中心としたマルチモーダル参照解決タスクを提案する。
頑健なジェスチャー埋め込みを学習する上での課題を同時に解決する。
本研究は,人間と機械の相互作用のより自然主義的なモデルに向けての一歩となる,参照分解におけるジェスチャーと音声の相補的役割を強調した。
論文 参考訳(メタデータ) (2025-02-27T17:28:12Z) - Contextual Gesture: Co-Speech Gesture Video Generation through Context-aware Gesture Representation [11.838249135550662]
Contextual Gestureは、3つの革新的なコンポーネントを通じて音声ジェスチャービデオ生成を改善するフレームワークである。
実験により、コンテキストジェスチャは、現実的かつ音声対応のジェスチャービデオを生成するだけでなく、長文生成および動画ジェスチャー編集アプリケーションもサポートすることが示された。
論文 参考訳(メタデータ) (2025-02-11T04:09:12Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。