論文の概要: Co-speech Gesture Video Generation via Motion-Based Graph Retrieval
- arxiv url: http://arxiv.org/abs/2512.02576v1
- Date: Tue, 02 Dec 2025 09:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.810301
- Title: Co-speech Gesture Video Generation via Motion-Based Graph Retrieval
- Title(参考訳): 動きに基づくグラフ検索による音声合成
- Authors: Yafei Song, Peng Zhang, Bang Zhang,
- Abstract要約: 近年のアプローチでは、既存のビデオデータの可能性を活用するためにモーショングラフを活用している。
本稿では,ジェスチャ動作を生成するために拡散モデルを用いた新しいフレームワークを提案する。
提案手法は,入力音声から低レベル特徴と高レベル特徴の両方を抽出し,トレーニングプロセスを強化する。
- 参考スコア(独自算出の注目度): 19.69526616871402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing synchronized and natural co-speech gesture videos remains a formidable challenge. Recent approaches have leveraged motion graphs to harness the potential of existing video data. To retrieve an appropriate trajectory from the graph, previous methods either utilize the distance between features extracted from the input audio and those associated with the motions in the graph or embed both the input audio and motion into a shared feature space. However, these techniques may not be optimal due to the many-to-many mapping nature between audio and gestures, which cannot be adequately addressed by one-to-one mapping. To alleviate this limitation, we propose a novel framework that initially employs a diffusion model to generate gesture motions. The diffusion model implicitly learns the joint distribution of audio and motion, enabling the generation of contextually appropriate gestures from input audio sequences. Furthermore, our method extracts both low-level and high-level features from the input audio to enrich the training process of the diffusion model. Subsequently, a meticulously designed motion-based retrieval algorithm is applied to identify the most suitable path within the graph by assessing both global and local similarities in motion. Given that not all nodes in the retrieved path are sequentially continuous, the final step involves seamlessly stitching together these segments to produce a coherent video output. Experimental results substantiate the efficacy of our proposed method, demonstrating a significant improvement over prior approaches in terms of synchronization accuracy and naturalness of generated gestures.
- Abstract(参考訳): シンセサイジングと自然な共同音声ジェスチャビデオの合成は、まだまだ難しい課題だ。
近年のアプローチでは、既存のビデオデータの可能性を活用するためにモーショングラフを活用している。
従来の方法では、入力オーディオから抽出した特徴とグラフ内の動作に関連する特徴との距離を利用するか、入力オーディオと動作の両方を共有特徴空間に埋め込む。
しかし、これらの手法は音声とジェスチャーの多対多のマッピングの性質のため最適ではない可能性があるため、一対一マッピングでは適切に対処できない。
この制限を緩和するために、当初は拡散モデルを用いてジェスチャー動作を生成する新しいフレームワークを提案する。
拡散モデルは暗黙的に音声と動きの結合分布を学習し、入力された音声シーケンスから文脈的に適切なジェスチャーを生成する。
さらに,提案手法は入力音声から低レベル特徴と高レベル特徴の両方を抽出し,拡散モデルのトレーニングプロセスを強化する。
その後、動きのグローバルな類似性および局所的な類似性を評価することにより、グラフ内の最も適切な経路を特定するために、巧妙に設計された動きに基づく探索アルゴリズムを適用する。
取得された経路の全てのノードが連続的に連続しているわけではないことを考慮すれば、最終的なステップはこれらのセグメントをシームレスに縫合してコヒーレントなビデオ出力を生成することである。
実験により,提案手法の有効性を実証し,生成したジェスチャーの同期精度と自然性の観点から,従来の手法よりも顕著な改善が示された。
関連論文リスト
- Planning with Sketch-Guided Verification for Physics-Aware Video Generation [71.29706409814324]
そこで我々は,SketchVerifyを,ビデオ生成のためのトレーニングフリーでスケッチ検証ベースの計画フレームワークとして提案する。
提案手法は,複数の候補動きプランを予測し,視覚言語検証器を用いてランク付けする。
我々は、満足なものが特定されるまで運動計画を反復的に洗練し、最終的な合成のために軌道条件付きジェネレータに渡される。
論文 参考訳(メタデータ) (2025-11-21T17:48:02Z) - StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model [73.30619724574642]
音声駆動型3D顔アニメーションは、音声入力によって駆動される現実的で同期された顔の動きを生成することを目的としている。
近年,3次元顔アニメーションに音声条件拡散モデルが採用されている。
本稿では,ストリーミング方式で音声を処理する自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:55:16Z) - EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model [22.286624353800377]
本研究では,2次元人間の骨格を中間動作表現として用い,音声合成のための新しいパイプラインを提案する。
実験の結果,本手法は既存のGAN法および拡散法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-11T08:19:18Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency [15.841490425454344]
本稿では,Loopy という,エンドツーエンドの音声のみの条件付きビデオ拡散モデルを提案する。
具体的には,ループ内時間モジュールとオーディオ・トゥ・ラテントモジュールを設計し,長期動作情報を活用する。
論文 参考訳(メタデータ) (2024-09-04T11:55:14Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。