論文の概要: HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation
- arxiv url: http://arxiv.org/abs/2503.01175v1
- Date: Mon, 03 Mar 2025 04:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:23.679631
- Title: HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation
- Title(参考訳): HOP:異種トポロジに基づくマルチモーダルエンタングルメントによる音声合成
- Authors: Hongye Cheng, Tianyu Wang, Guangsi Shi, Zexing Zhao, Yanwei Fu,
- Abstract要約: 共同音声ジェスチャーは、人間のコミュニケーションにおける音声の明瞭さと歩みを高める重要な非言語的手がかりである。
ジェスチャー動作, 音声リズム, テキストセマンティクスのヘテロジニアスな絡み合いを捕捉し, 共同音声ジェスチャ生成のためのHOPという新しい手法を提案する。
HOPは、より自然で表現力のある共同音声ジェスチャ生成を提供する最先端技術を実現している。
- 参考スコア(独自算出の注目度): 42.30003982604611
- License:
- Abstract: Co-speech gestures are crucial non-verbal cues that enhance speech clarity and expressiveness in human communication, which have attracted increasing attention in multimodal research. While the existing methods have made strides in gesture accuracy, challenges remain in generating diverse and coherent gestures, as most approaches assume independence among multimodal inputs and lack explicit modeling of their interactions. In this work, we propose a novel multimodal learning method named HOP for co-speech gesture generation that captures the heterogeneous entanglement between gesture motion, audio rhythm, and text semantics, enabling the generation of coordinated gestures. By leveraging spatiotemporal graph modeling, we achieve the alignment of audio and action. Moreover, to enhance modality coherence, we build the audio-text semantic representation based on a reprogramming module, which is beneficial for cross-modality adaptation. Our approach enables the trimodal system to learn each other's features and represent them in the form of topological entanglement. Extensive experiments demonstrate that HOP achieves state-of-the-art performance, offering more natural and expressive co-speech gesture generation. More information, codes, and demos are available here: https://star-uu-wang.github.io/HOP/
- Abstract(参考訳): 共同音声ジェスチャーは、人間のコミュニケーションにおける音声の明瞭さと表現力を高める重要な非言語的手がかりであり、マルチモーダルな研究で注目を集めている。
既存の手法はジェスチャーの精度を向上してきたが、多くのアプローチではマルチモーダル入力の独立性を前提としており、相互作用の明示的なモデリングが欠如しているため、多様で一貫性のあるジェスチャーの生成には依然として課題が残っている。
本研究では,ジェスチャー動作,音声リズム,テキストセマンティクスのヘテロジニアスな絡み合いをキャプチャし,協調ジェスチャーの生成を可能にする,HOPという新しいマルチモーダル学習手法を提案する。
時空間グラフモデリングを活用することで、音声とアクションのアライメントを実現する。
さらに,モーダリティのコヒーレンスを高めるために,プログラムモジュールをベースとした音声文意味表現を構築し,モーダリティ間の適応に有用である。
提案手法は, トポロジカルエンタングルメントの形で, トポロジカルエンタングルメントの形で, 互いの特徴を学習し, 表現することができる。
広汎な実験により、HOPは最先端のパフォーマンスを実現し、より自然で表現力豊かな音声ジェスチャー生成を提供する。
詳細、コード、デモは、https://star-uu-wang.github.io/HOP/で確認できる。
関連論文リスト
- Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures [27.763304632981882]
DiffTEDは、1つの画像から1ショットの音声駆動音声ビデオを生成する新しいアプローチである。
我々は拡散モデルを利用して、薄膜スプライン運動モデルのためのキーポイントのシーケンスを生成する。
実験により、DiffTEDは多様な音声のジェスチャーによる時間的コヒーレントな会話ビデオを生成することが示された。
論文 参考訳(メタデータ) (2024-09-11T22:31:55Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio
Representation [18.04996323708772]
本稿では,2023年度のGenEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Challengeのために開発されたシステムについて述べる。
本研究では,音声とジェスチャーの組込み学習を行うCSMPモジュールを提案する。
CSMPモジュールの出力は拡散に基づくジェスチャー合成モデルにおける条件付け信号として使用される。
論文 参考訳(メタデータ) (2023-09-11T13:51:06Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。