論文の概要: 3DGesPolicy: Phoneme-Aware Holistic Co-Speech Gesture Generation Based on Action Control
- arxiv url: http://arxiv.org/abs/2601.18451v1
- Date: Mon, 26 Jan 2026 12:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.82951
- Title: 3DGesPolicy: Phoneme-Aware Holistic Co-Speech Gesture Generation Based on Action Control
- Title(参考訳): 3DGesPolicy:アクション制御に基づく音素認識完全音声合成
- Authors: Xuanmeng Sha, Liyun Zhang, Tomohiro Mashita, Naoya Chiba, Yuki Uranishi,
- Abstract要約: 3DGesPolicyは、連続的な軌跡制御問題として総合的なジェスチャー生成を再構成するアクションベースのフレームワークである。
フレーム・ツー・フレームの変動を統一的全体的動作としてモデル化することにより,フレーム間の動作パターンを効果的に学習する。
表現的アライメントにおけるギャップをさらに埋めるため,Gesture-Audio-Phoneme (GAP) 融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 3.606473077857744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating holistic co-speech gestures that integrate full-body motion with facial expressions suffers from semantically incoherent coordination on body motion and spatially unstable meaningless movements due to existing part-decomposed or frame-level regression methods, We introduce 3DGesPolicy, a novel action-based framework that reformulates holistic gesture generation as a continuous trajectory control problem through diffusion policy from robotics. By modeling frame-to-frame variations as unified holistic actions, our method effectively learns inter-frame holistic gesture motion patterns and ensures both spatially and semantically coherent movement trajectories that adhere to realistic motion manifolds. To further bridge the gap in expressive alignment, we propose a Gesture-Audio-Phoneme (GAP) fusion module that can deeply integrate and refine multi-modal signals, ensuring structured and fine-grained alignment between speech semantics, body motion, and facial expressions. Extensive quantitative and qualitative experiments on the BEAT2 dataset demonstrate the effectiveness of our 3DGesPolicy across other state-of-the-art methods in generating natural, expressive, and highly speech-aligned holistic gestures.
- Abstract(参考訳): 顔の表情とフルボディ動作を統合した音声合成は,既存の部分分解・フレームレベルの回帰手法による意味的不整合や空間的に不安定な無意味な動きに悩まされ,ロボット工学からの拡散政策による連続的軌道制御問題として,包括的ジェスチャー生成を再構築する新たなアクションベースフレームワークである3DGesPolicyを導入する。
フレーム・ツー・フレームの変動を統一的全体的動作としてモデル化することにより,フレーム間の動作パターンを効果的に学習し,現実的な運動多様体に忠実な空間的および意味的コヒーレントな動き軌跡を確実にする。
表現的アライメントのギャップをさらに埋めるため,マルチモーダル信号を深く統合・洗練し,音声意味論,身体の動き,表情間の微細なアライメントを確実にするゲスチャー・オーディオ・フォネメ (GAP) 融合モジュールを提案する。
BEAT2データセットの広範にわたる定量的および定性的な実験は、自然言語、表現的、高度に音声に整合した包括的ジェスチャーを生成する他の最先端手法に対する我々の3DGesPolicyの有効性を実証している。
関連論文リスト
- Towards Unified Co-Speech Gesture Generation via Hierarchical Implicit Periodicity Learning [13.132419390712807]
一般的な学習スキームは、異なる運動単位間で重要な相互関係や相関関係をモデル化することができないと我々は主張する。
音声に触発された3次元ジェスチャー生成のための階層型暗黙周期性(HIP)学習手法を提案する。
論文 参考訳(メタデータ) (2025-12-15T09:43:08Z) - InteracTalker: Prompt-Based Human-Object Interaction with Co-Speech Gesture Generation [1.7523719472700858]
我々は,対話型音声生成と対話型音声対話をシームレスに統合する新しいフレームワークであるInteracTalkerを紹介する。
本フレームワークは,動作条件に適応して独立したトレーニングを可能にする汎用モーション適応モジュールを利用する。
InteracTalkerは、これらの以前分離されたタスクをうまく統合し、音声のジェスチャー生成とオブジェクト-インタラクション合成の両方において、従来の手法より優れている。
論文 参考訳(メタデータ) (2025-12-14T12:29:49Z) - MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation [42.30003982604611]
共同音声ジェスチャーは、人間のコミュニケーションにおける音声の明瞭さと歩みを高める重要な非言語的手がかりである。
ジェスチャー動作, 音声リズム, テキストセマンティクスのヘテロジニアスな絡み合いを捕捉し, 共同音声ジェスチャ生成のためのHOPという新しい手法を提案する。
HOPは、より自然で表現力のある共同音声ジェスチャ生成を提供する最先端技術を実現している。
論文 参考訳(メタデータ) (2025-03-03T04:47:39Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。