論文の概要: ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer
- arxiv url: http://arxiv.org/abs/2503.21847v1
- Date: Thu, 27 Mar 2025 16:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:28:28.912118
- Title: ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer
- Title(参考訳): ReCoM: Recurrent Embedded Transformer を用いたリアリスティックな音声合成
- Authors: Yong Xie, Yunlian Sun, Hongwen Zhang, Yebin Liu, Jinhui Tang,
- Abstract要約: 音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
- 参考スコア(独自算出の注目度): 58.49950218437718
- License:
- Abstract: We present ReCoM, an efficient framework for generating high-fidelity and generalizable human body motions synchronized with speech. The core innovation lies in the Recurrent Embedded Transformer (RET), which integrates Dynamic Embedding Regularization (DER) into a Vision Transformer (ViT) core architecture to explicitly model co-speech motion dynamics. This architecture enables joint spatial-temporal dependency modeling, thereby enhancing gesture naturalness and fidelity through coherent motion synthesis. To enhance model robustness, we incorporate the proposed DER strategy, which equips the model with dual capabilities of noise resistance and cross-domain generalization, thereby improving the naturalness and fluency of zero-shot motion generation for unseen speech inputs. To mitigate inherent limitations of autoregressive inference, including error accumulation and limited self-correction, we propose an iterative reconstruction inference (IRI) strategy. IRI refines motion sequences via cyclic pose reconstruction, driven by two key components: (1) classifier-free guidance improves distribution alignment between generated and real gestures without auxiliary supervision, and (2) a temporal smoothing process eliminates abrupt inter-frame transitions while ensuring kinematic continuity. Extensive experiments on benchmark datasets validate ReCoM's effectiveness, achieving state-of-the-art performance across metrics. Notably, it reduces the Fr\'echet Gesture Distance (FGD) from 18.70 to 2.48, demonstrating an 86.7% improvement in motion realism. Our project page is https://yong-xie-xy.github.io/ReCoM/.
- Abstract(参考訳): 音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vision Transformer)コアアーキテクチャに統合し、音声の動力学を明示的にモデル化する。
これにより、コヒーレントな動き合成によるジェスチャーの自然さと忠実さを向上させることができる。
モデルロバスト性を高めるために提案したDER戦略は,雑音耐性とクロスドメイン一般化の二重性を備えたモデルを実装し,未知の音声入力に対するゼロショットモーション生成の自然性と流速を向上させる。
エラー蓄積や自己補正の制限を含む自己回帰推論の固有の制限を軽減するため,反復的再構成推論(IRI)戦略を提案する。
IRIは2つの重要な要素によって駆動されるサイクリックポーズ再構成によって動作シーケンスを洗練し、(1)分類器フリーガイダンスは、補助的な監督なしに生成されたジェスチャーと実際のジェスチャーの分配アライメントを改善し、(2)時間的平滑化プロセスは、動力学的連続性を確保しながら、突然のフレーム間遷移を排除している。
ベンチマークデータセットに関する大規模な実験は、ReCoMの有効性を評価し、メトリクス間で最先端のパフォーマンスを達成する。
特に、Fr'echet Gesture Distance (FGD) は18.70から2.48に減少し、86.7%の運動リアリズムが向上した。
私たちのプロジェクトページはhttps://yong-xie-xy.github.io/ReCoM/です。
関連論文リスト
- Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Motion-compensated MR CINE reconstruction with reconstruction-driven motion estimation [11.432602522235742]
運動補償MR再構成(MCMR)は,高度にアンサンプされた買収に対処するための効果的なアプローチである。
本稿では,MCMR問題に対する新たな視点と,MCMR分野に対するより統合的で効率的な解法を提案する。
我々のアプローチは、運動推定は究極のゴール、再構築によって直接駆動されるが、正準運動ウォーピング損失によって行われるものではないという点で特異である。
論文 参考訳(メタデータ) (2023-02-05T22:51:27Z) - Diverse Dance Synthesis via Keyframes with Transformer Controllers [10.23813069057791]
本稿では,複数の制約に基づく動きに基づく動き生成ネットワークを提案し,学習知識を用いて多様なダンス合成を実現する。
我々のネットワークのバックボーンは2つの長い短期記憶(LSTM)ユニットからなる階層的RNNモジュールであり、最初のLSTMを用いて歴史的フレームの姿勢情報を潜時空間に埋め込む。
本フレームワークは2つのTransformerベースのコントローラを備えており,それぞれがルート軌道と速度係数の制約をモデル化するために使用される。
論文 参考訳(メタデータ) (2022-07-13T00:56:46Z) - JNMR: Joint Non-linear Motion Regression for Video Frame Interpolation [47.123769305867775]
ビデオフレーム(VFI)は、双方向の歴史的参照から学習可能な動きを歪曲することでフレームを生成することを目的としている。
我々は、フレーム間の複雑な動きをモデル化するために、VFIをJNMR(Joint Non-linear Motion Regression)戦略として再構成する。
その結果, 関節運動の退行性は, 最先端の方法と比較して有意に向上した。
論文 参考訳(メタデータ) (2022-06-09T02:47:29Z) - Representation Learning for Compressed Video Action Recognition via
Attentive Cross-modal Interaction with Motion Enhancement [28.570085937225976]
本稿では,動作強化を伴う注意的クロスモーダルインタラクションネットワークという,新たなフレームワークを提案する。
RGBモダリティ(英語版)とモーションモダリティ(英語版)の2ストリームアーキテクチャ(英語版)に従う。
UCF-101、HMDB-51、Kinetics-400ベンチマークの実験では、MEACI-Netの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-05-07T06:26:49Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。