論文の概要: Self-Supervised Learning of Deviation in Latent Representation for Co-speech Gesture Video Generation
- arxiv url: http://arxiv.org/abs/2409.17674v1
- Date: Thu, 26 Sep 2024 09:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 20:56:11.248175
- Title: Self-Supervised Learning of Deviation in Latent Representation for Co-speech Gesture Video Generation
- Title(参考訳): 音声ジェスチャー映像生成のための遅延表現における偏差の自己教師付き学習
- Authors: Huan Yang, Jiahui Chen, Chaofan Ding, Runhua Shi, Siyu Xiong, Qingqi Hong, Xiaoqi Mo, Xinhan Di,
- Abstract要約: 協調音声におけるジェスチャーの表現について,自己教師付き表現と画素レベルの動き偏差に着目して検討する。
提案手法は,手ジェスチャー生成を容易にするために,遅延表現における自己教師付き偏差を利用する。
最初の実験の結果,本手法が生成ビデオの品質を向上させることを示す。
- 参考スコア(独自算出の注目度): 8.84657964527764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gestures are pivotal in enhancing co-speech communication. While recent works have mostly focused on point-level motion transformation or fully supervised motion representations through data-driven approaches, we explore the representation of gestures in co-speech, with a focus on self-supervised representation and pixel-level motion deviation, utilizing a diffusion model which incorporates latent motion features. Our approach leverages self-supervised deviation in latent representation to facilitate hand gestures generation, which are crucial for generating realistic gesture videos. Results of our first experiment demonstrate that our method enhances the quality of generated videos, with an improvement from 2.7 to 4.5% for FGD, DIV, and FVD, and 8.1% for PSNR, 2.5% for SSIM over the current state-of-the-art methods.
- Abstract(参考訳): ジェスチャーは共同音声コミュニケーションの強化に重要である。
最近の研究は、主に点レベルの動き変換や、データ駆動型アプローチによる完全に教師された動きの表現に焦点を当てているが、我々は、遅延した動き特徴を取り入れた拡散モデルを用いて、自己教師付き表現と画素レベルの動きの偏差に着目して、協調音声におけるジェスチャーの表現について検討している。
提案手法は,現実的なジェスチャービデオを生成する上で重要な手ジェスチャー生成を容易にするために,遅延表現における自己監督的偏差を利用する。
その結果,FGD,DIV,FVDは2.7~4.5%,PSNRは8.1%,SSIMは2.5%に改善した。
関連論文リスト
- High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文 参考訳(メタデータ) (2024-09-29T06:46:31Z) - UniLearn: Enhancing Dynamic Facial Expression Recognition through Unified Pre-Training and Fine-Tuning on Images and Videos [83.48170683672427]
UniLearnは、静的表情認識データを統合してDFERタスクを強化する統一学習パラダイムである。
UniLearnは、FERV39K、MAFW、DFEWのベンチマークにおいて、それぞれ53.65%、58.44%、76.68%の重み付き平均リコール(WAR)で常に最先端のパフォーマンスを保っている。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - ViTGaze: Gaze Following with Interaction Features in Vision Transformers [42.08842391756614]
本稿では, ViTGaze という新しい単一モダリティ・ギャラクシー・フレームワークを紹介する。
従来の手法とは対照的に、主に強力なエンコーダに基づく新しい視線追跡フレームワークを作成する。
本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-03-19T14:45:17Z) - Continuous Sign Language Recognition Based on Motor attention mechanism
and frame-level Self-distillation [17.518587972114567]
本稿では,手話表現中の局所的な運動領域の変化を捉えるための新しい運動注意機構を提案する。
連続手話におけるフレームレベルの特徴抽出に,初めて自己蒸留法を適用した。
論文 参考訳(メタデータ) (2024-02-29T12:52:50Z) - AnaMoDiff: 2D Analogical Motion Diffusion via Disentangled Denoising [25.839194626743126]
AnaMoDiffは2次元モーションアナログの新しい拡散法である。
私たちのゴールは、2Dドライビングビデオからソースキャラクタへの動きを、外見や自然な動きの観点から正確に転送することです。
論文 参考訳(メタデータ) (2024-02-05T22:10:54Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Moving fast and slow: Analysis of representations and post-processing in
speech-driven automatic gesture generation [7.6857153840014165]
我々は,表現学習を取り入れた音声によるジェスチャー生成のための,近年のディープラーニングに基づくデータ駆動手法を拡張した。
我々のモデルは音声を入力とし、3次元座標列の形式でジェスチャーを出力として生成する。
自動ジェスチャー生成法の設計において,動作表現と後処理の両方を考慮に入れることが重要であると結論付けた。
論文 参考訳(メタデータ) (2020-07-16T07:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。