論文の概要: Semantic Motion Anchors: Bridging Motion and Meaning in Co-Speech Gestures
- arxiv url: http://arxiv.org/abs/2605.30608v2
- Date: Mon, 01 Jun 2026 14:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.8465
- Title: Semantic Motion Anchors: Bridging Motion and Meaning in Co-Speech Gestures
- Title(参考訳): セマンティックモーションアンカー:人工装具におけるブリッジ動作と意味
- Authors: Varsha Suresh, Mohammad Mahdi Abootorabi, Mohamed Salman, M. Hamza Mughal, Christian Theobalt, Ashwin Ram, Jürgen Steimle, Vera Demberg,
- Abstract要約: そこで本稿では, 意味的動作アンカー, ジェスチャー動作の自然言語的抽象化, 物理的形状, コミュニケーション意図を提案する。
本手法は,3次元ジェスチャーを身体動作プリミティブに識別し,言語的に構造化された記述に分類し,転写文にグルーピングする。
BEAT2では,テキスト・モーション・ベースライン上でテキスト・ツー・ジェスチャR@1を8.2%改善する。
- 参考スコア(独自算出の注目度): 58.6162288735234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a shared representation between spoken text and gesture is central to co-speech gesture retrieval, synthesis, and understanding, but remains challenging for semantically meaningful gestures whose communicative intent is not captured by motion alone. Direct contrastive alignment between transcripts and continuous motion embeddings often overemphasizes low-level kinematics and misses the symbolic content of semantic gestures. We propose semantic motion anchors, natural-language abstractions of gesture motion capturing physical form and communicative intent. Our method discretizes 3D gestures into body-hand motion primitives, verbalizes them into structured descriptions, and grounds them in the transcript to provide auxiliary contrastive supervision. On BEAT2, our method improves text-to-gesture R@1 by 8.2% over a direct text-motion baseline and outperforms prior retrieval approaches on text to gesture and gesture to text retrieval directions. Beyond aggregate retrieval metrics, semantic motion anchor supervision helps retrieve gestures that are semantically meaningful for the spoken query, rather than defaulting to generic motion patterns. A downstream retrieval-augmented gesture generation study showed that users significantly preferred gestures retrieved by our approach over a retrieval-augmented generation baseline, demonstrating that semantically grounded retrieval translates to gestures that better convey communicative intent in downstream generation.
- Abstract(参考訳): 音声テキストとジェスチャーの共有表現を学習することは、共同音声によるジェスチャー検索、合成、理解の中心であるが、コミュニケーション意図が動きだけで捉えられていない意味的に意味のあるジェスチャーには依然として困難である。
書き起こしと連続的な動きの埋め込みの直接の対照的なアライメントは、しばしば低レベルのキネマティクスを過度に強調し、意味的なジェスチャーの象徴的な内容を見落としている。
そこで本稿では, 意味的動作アンカー, ジェスチャー動作の自然言語的抽象化, 物理的形状, コミュニケーション意図を提案する。
本手法は,3次元ジェスチャーを身体動作プリミティブに識別し,言語的に構造化された記述に分類し,テキストに基盤を置き,コントラストの補助的監視を行う。
BEAT2では,テキスト移動ベースラインよりもテキスト間R@1を8.2%改善し,テキストのジェスチャーやジェスチャーによるテキスト検索の手法よりも優れていた。
総合的な検索指標以外にも、セマンティックモーションアンカ監視は、ジェネリックモーションパターンをデフォルトにするのではなく、音声クエリに意味のあるジェスチャーの検索を支援する。
ダウンストリーム検索強化ジェスチャ生成実験では,検索強化ジェスチャベースラインよりも,我々のアプローチにより検索したジェスチャを有意に好んで選択し,セマンティックグラウンドド検索が下流ジェスチャ生成におけるコミュニケーション意図をよりよく伝達するジェスチャに変換することを示した。
関連論文リスト
- Recognizing Co-Speech Gestures in-the-Wild [52.804383193630166]
GRW(Gesture Recognition in the Wild)データセットは156,688本のビデオクリップを手動でアノテートする。
GRWは、物理的行動、空間記述子、抽象概念の非常に多様な150ワードの分類である。
我々はGRWを利用してビデオモデルを訓練し、ジェスチャーを意味的か否かを分類し、(b)共同音声のジェスチャーに対応する単語を認識し、(c)ジェスチャーを時間的に局所化する。
論文 参考訳(メタデータ) (2026-05-29T17:55:17Z) - CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation [44.84719308595376]
CoordSpeakerは、協調キャプションを組み込んだ音声合成を可能にする包括的なフレームワークである。
本手法は,音声とリズミカルに同期した高品質なジェスチャーと,任意のキャプションとセマンティックに協調したジェスチャーを生成する。
論文 参考訳(メタデータ) (2025-11-28T03:38:08Z) - ImaGGen: Zero-Shot Generation of Co-Speech Semantic Gestures Grounded in Language and Image Input [0.0]
本稿では, 音声合成における中核的な課題として, 言語発話にセマンティックに一貫性のある, 象徴的, あるいは難解なジェスチャーを生成することを挙げる。
我々は、与えられた言語入力からジェスチャーを生成するゼロショットシステムを導入し、さらに手動のアノテーションや人間の介入なしに、想像的な入力によって通知される。
本結果は,表現的かつ協調的な仮想エージェントやアバターを作成する上で,文脈認識型セマンティックジェスチャの重要性を強調した。
論文 参考訳(メタデータ) (2025-10-20T15:01:56Z) - Intentional Gesture: Deliver Your Intentions with Gestures for Speech [47.34315450130868]
Intentional-Gestureは、ハイレベルなコミュニケーション機能に基づく意図推論タスクとしてジェスチャ生成をキャストする新しいフレームワークである。
我々のフレームワークは、デジタル人間と具体化されたAIにおいて、表現力のあるジェスチャー生成のためのモジュラー基盤を提供する。
論文 参考訳(メタデータ) (2025-05-21T07:24:51Z) - Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。
本稿では,ジェスチャと音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。
本稿では,これらの課題を解決するために,3モーダルなビデオ・ジェスチャー・テキスト表現を学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T17:55:52Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。