論文の概要: Intentional Gesture: Deliver Your Intentions with Gestures for Speech
- arxiv url: http://arxiv.org/abs/2505.15197v1
- Date: Wed, 21 May 2025 07:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.105005
- Title: Intentional Gesture: Deliver Your Intentions with Gestures for Speech
- Title(参考訳): 意図的なジェスチャー: 発話のためのジェスチャーで意図を届ける
- Authors: Pinxin Liu, Haiyang Liu, Luchuan Song, Chenliang Xu,
- Abstract要約: textbfIntentional-Gestureは、ハイレベルなコミュニケーション機能に基づく意図推論タスクとしてジェスチャ生成をキャストする。
我々のフレームワークは、デジタル人間と具体化されたAIにおいて、表現力のあるジェスチャー生成のためのモジュラー基盤を提供する。
- 参考スコア(独自算出の注目度): 34.4247439245772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When humans speak, gestures help convey communicative intentions, such as adding emphasis or describing concepts. However, current co-speech gesture generation methods rely solely on superficial linguistic cues (\textit{e.g.} speech audio or text transcripts), neglecting to understand and leverage the communicative intention that underpins human gestures. This results in outputs that are rhythmically synchronized with speech but are semantically shallow. To address this gap, we introduce \textbf{Intentional-Gesture}, a novel framework that casts gesture generation as an intention-reasoning task grounded in high-level communicative functions. % First, we curate the \textbf{InG} dataset by augmenting BEAT-2 with gesture-intention annotations (\textit{i.e.}, text sentences summarizing intentions), which are automatically annotated using large vision-language models. Next, we introduce the \textbf{Intentional Gesture Motion Tokenizer} to leverage these intention annotations. It injects high-level communicative functions (\textit{e.g.}, intentions) into tokenized motion representations to enable intention-aware gesture synthesis that are both temporally aligned and semantically meaningful, achieving new state-of-the-art performance on the BEAT-2 benchmark. Our framework offers a modular foundation for expressive gesture generation in digital humans and embodied AI. Project Page: https://andypinxinliu.github.io/Intentional-Gesture
- Abstract(参考訳): 人間が話すとき、ジェスチャは強調や概念の記述など、コミュニケーションの意図を伝えるのに役立つ。
しかし、現在の共同音声ジェスチャ生成法は、人間のジェスチャーの基盤となるコミュニケーション意図を理解し、活用することを無視し、表面言語的手がかり(\textit{e g }音声音声やテキストの書き起こし)にのみ依存している。
これにより、音声とリズミカルに同期するが、意味的に浅い出力が得られる。
このギャップに対処するために,ハイレベルなコミュニケーション機能に基づく意図推論タスクとしてジェスチャ生成を行う新しいフレームワークである‘textbf{Intentional-Gesture} を導入する。
% 第一に BEAT-2 にジェスチャー意図アノテーション (\textit{i.e.} を付加することにより \textbf{InG} データセットをキュレートする。
次に、これらの意図的アノテーションを活用するために、textbf{Intentional Gesture Motion Tokenizer}を導入する。
BEAT-2ベンチマークでは、高レベルなコミュニケーション関数(\textit{e g }, intentions)をトークン化された動作表現に注入し、時間的整合性と意味論的意味の両方を持つ意図認識のジェスチャー合成を可能にし、新しい最先端のパフォーマンスを実現する。
我々のフレームワークは、デジタル人間と具体化されたAIにおいて、表現力のあるジェスチャー生成のためのモジュラー基盤を提供する。
Project Page: https://andypinxinliu.github.io/Intentional-Gesture
関連論文リスト
- Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。
本稿では,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。
我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T17:55:52Z) - Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues [56.36041287155606]
本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。
ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。
その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
論文 参考訳(メタデータ) (2025-03-05T13:10:07Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。