論文の概要: Audio-driven Gesture Generation via Deviation Feature in the Latent Space
- arxiv url: http://arxiv.org/abs/2503.21616v1
- Date: Thu, 27 Mar 2025 15:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.587318
- Title: Audio-driven Gesture Generation via Deviation Feature in the Latent Space
- Title(参考訳): 遅延空間における偏差特徴による音声駆動型ジェスチャ生成
- Authors: Jiahui Chen, Yang Huan, Runhua Shi, Chanfan Ding, Xiaoqi Mo, Siyu Xiong, Yinong He,
- Abstract要約: 本稿では,音声合成に適した遅延表現偏差を学習する弱教師付きフレームワークを提案する。
提案手法では,より正確かつニュアンスなジェスチャー表現を実現するために,遅延動作特徴を統合する拡散モデルを用いている。
実験により,本手法は映像の画質を大幅に向上させ,最先端技術を上回った。
- 参考スコア(独自算出の注目度): 2.8952735126314733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gestures are essential for enhancing co-speech communication, offering visual emphasis and complementing verbal interactions. While prior work has concentrated on point-level motion or fully supervised data-driven methods, we focus on co-speech gestures, advocating for weakly supervised learning and pixel-level motion deviations. We introduce a weakly supervised framework that learns latent representation deviations, tailored for co-speech gesture video generation. Our approach employs a diffusion model to integrate latent motion features, enabling more precise and nuanced gesture representation. By leveraging weakly supervised deviations in latent space, we effectively generate hand gestures and mouth movements, crucial for realistic video production. Experiments show our method significantly improves video quality, surpassing current state-of-the-art techniques.
- Abstract(参考訳): ジェスチャーは共同音声コミュニケーションの強化に不可欠であり、視覚的強調を提供し、言語的相互作用を補完する。
先行研究は点レベルの動きや完全教師付きデータ駆動方式に重点を置いているが、我々は、弱教師付き学習と画素レベルの動き偏差を提唱する共同音声ジェスチャーに焦点を当てている。
本稿では,音声合成に適した遅延表現偏差を学習する弱教師付きフレームワークを提案する。
提案手法では,より正確かつニュアンスなジェスチャー表現を実現するために,遅延動作特徴を統合する拡散モデルを用いている。
遅延空間における弱教師付き偏差を利用して、現実的な映像制作に不可欠な手の動きや口の動きを効果的に生成する。
実験により,本手法は映像の画質を大幅に向上させ,最先端技術を上回った。
関連論文リスト
- TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。
本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。
私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文 参考訳(メタデータ) (2025-04-11T00:41:25Z) - Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。
本稿では,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。
我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T17:55:52Z) - HoloGest: Decoupled Diffusion and Motion Priors for Generating Holisticly Expressive Co-speech Gestures [8.50717565369252]
HoleGestは、高品質で表現力のある共同音声ジェスチャーの自動生成のための、新しいニューラルネットワークフレームワークである。
本システムでは,音声依存度が低く,モーション依存度が高く,より安定した大域的動作と詳細な指の動きが可能である。
我々のモデルは、没入感のあるユーザー体験を提供するために、真実に近い現実主義のレベルを達成する。
論文 参考訳(メタデータ) (2025-03-17T14:42:31Z) - EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - Self-Supervised Learning of Deviation in Latent Representation for Co-speech Gesture Video Generation [8.84657964527764]
協調音声におけるジェスチャーの表現について,自己教師付き表現と画素レベルの動き偏差に着目して検討する。
提案手法は,手ジェスチャー生成を容易にするために,遅延表現における自己教師付き偏差を利用する。
最初の実験の結果,本手法が生成ビデオの品質を向上させることを示す。
論文 参考訳(メタデータ) (2024-09-26T09:33:20Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。