論文の概要: SmoothSync: Dual-Stream Diffusion Transformers for Jitter-Robust Beat-Synchronized Gesture Generation from Quantized Audio
- arxiv url: http://arxiv.org/abs/2601.04236v1
- Date: Sun, 04 Jan 2026 09:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.807627
- Title: SmoothSync: Dual-Stream Diffusion Transformers for Jitter-Robust Beat-Synchronized Gesture Generation from Quantized Audio
- Title(参考訳): SmoothSync: 量子オーディオによるジッタローブビート同期ジェスチャ生成のためのデュアルストリーム拡散変換器
- Authors: Yujiao Jiang, Qingmin Liao, Zongqing Lu,
- Abstract要約: コ音声ジェスチャー生成は、音声同期型人間的なジェスチャーを合成することを目的とした研究の重要領域である。
本稿では,新しいDiffusion Transformer(DiT)アーキテクチャにおいて,量子化オーディオトークンを利用する新しいフレームワークであるSmoothSyncを提案する。
BEAT2とSHOWデータセットの実験では、SmoothSyncの優位性、FGDの-30.6%、Smooth-BCの10.3%、BEAT2の8.4%、そしてジッタとフットのスライディングの-62.9%、-17.1%よりも優れていた。
- 参考スコア(独自算出の注目度): 45.18282358376081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Co-speech gesture generation is a critical area of research aimed at synthesizing speech-synchronized human-like gestures. Existing methods often suffer from issues such as rhythmic inconsistency, motion jitter, foot sliding and limited multi-sampling diversity. In this paper, we present SmoothSync, a novel framework that leverages quantized audio tokens in a novel dual-stream Diffusion Transformer (DiT) architecture to synthesis holistic gestures and enhance sampling variation. Specifically, we (1) fuse audio-motion features via complementary transformer streams to achieve superior synchronization, (2) introduce a jitter-suppression loss to improve temporal smoothness, (3) implement probabilistic audio quantization to generate distinct gesture sequences from identical inputs. To reliably evaluate beat synchronization under jitter, we introduce Smooth-BC, a robust variant of the beat consistency metric less sensitive to motion noise. Comprehensive experiments on the BEAT2 and SHOW datasets demonstrate SmoothSync's superiority, outperforming state-of-the-art methods by -30.6% FGD, 10.3% Smooth-BC, and 8.4% Diversity on BEAT2, while reducing jitter and foot sliding by -62.9% and -17.1% respectively. The code will be released to facilitate future research.
- Abstract(参考訳): コ音声ジェスチャー生成は、音声同期型人間的なジェスチャーを合成することを目的とした研究の重要領域である。
既存の手法では、リズミカルな不整合、モーションジッタ、フットスライディング、マルチサンプリングの多様性の制限といった問題に悩まされることが多い。
本稿では,Diffusion Transformer (DiT) アーキテクチャにおける量子化音声トークンを利用する新しいフレームワークであるSmoothSyncについて述べる。
具体的には,(1)相補的なトランスフォーマーストリームを介して音声の動作特性を融合させ,(2)時相のスムーズさを改善するためにジッタ圧縮損失を導入し,(3)確率的音声量子化を実装し,同一入力から異なるジェスチャーシーケンスを生成する。
ジッタ下でのビート同期を確実に評価するために,動作雑音に敏感でないビート整合度指標の頑健な変種であるSmooth-BCを導入する。
BEAT2とSHOWデータセットに関する総合的な実験は、SmoothSyncの優位性を示し、FGDの-30.6%、Smooth-BCの10.3%、BEAT2の8.4%、ジッタとフットのスライディングの-62.9%と-17.1%を上回った。
コードは、将来の研究を促進するためにリリースされます。
関連論文リスト
- Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow [17.95248351806955]
マルチモーダルな2人動作生成のためのフレームワークであるDualFlowを紹介する。
テキスト、音楽、先行の動作シーケンスを含む様々な入力で動きを合成する。
時間的にコヒーレントでリズミカルに同期した動作を生成し、マルチモーダルな人間の動作生成において最先端の動作を設定する。
論文 参考訳(メタデータ) (2025-09-28T22:36:18Z) - Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers [19.226787997122987]
380x640の解像度、24fpsのビデオが多様な音声入力と同期するSyncphonyを提案する。
提案手法は,事前学習したビデオバックボーン上に構築され,同期性を改善するために2つの重要なコンポーネントが組み込まれている。
AVSync15とThe Greatest Hitsデータセットの実験では、Syncphonyは同期精度と視覚的品質の両方で既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-09-26T05:30:06Z) - MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.82127738291749]
JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。
新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文 参考訳(メタデータ) (2025-03-30T09:40:42Z) - Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.37449968164692]
ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。
提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。
大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-11T16:43:45Z) - AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。
安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。
我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-06-11T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。