論文の概要: Mitigating Error Accumulation in Co-Speech Motion Generation via Global Rotation Diffusion and Multi-Level Constraints
- arxiv url: http://arxiv.org/abs/2511.10076v1
- Date: Fri, 14 Nov 2025 01:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.683573
- Title: Mitigating Error Accumulation in Co-Speech Motion Generation via Global Rotation Diffusion and Multi-Level Constraints
- Title(参考訳): グローバル回転拡散とマルチレベル制約による共音声動作生成における誤り蓄積の軽減
- Authors: Xiangyue Zhang, Jianfang Li, Jianqiang Ren, Jiaxu Zhang,
- Abstract要約: 既存の生成法は、骨格構造に基づいて階層的に定義される局所的な関節回転で動作する。
これは生成中の累積誤差を生じさせ、エンドエフェクターにおける不可解な動きとして現れる。
我々は,グローバルな関節回転の空間で直接動作する拡散ベースのフレームワークであるGlobalDiffを提案する。
- 参考スコア(独自算出の注目度): 7.736213513963954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable co-speech motion generation requires precise motion representation and consistent structural priors across all joints. Existing generative methods typically operate on local joint rotations, which are defined hierarchically based on the skeleton structure. This leads to cumulative errors during generation, manifesting as unstable and implausible motions at end-effectors. In this work, we propose GlobalDiff, a diffusion-based framework that operates directly in the space of global joint rotations for the first time, fundamentally decoupling each joint's prediction from upstream dependencies and alleviating hierarchical error accumulation. To compensate for the absence of structural priors in global rotation space, we introduce a multi-level constraint scheme. Specifically, a joint structure constraint introduces virtual anchor points around each joint to better capture fine-grained orientation. A skeleton structure constraint enforces angular consistency across bones to maintain structural integrity. A temporal structure constraint utilizes a multi-scale variational encoder to align the generated motion with ground-truth temporal patterns. These constraints jointly regularize the global diffusion process and reinforce structural awareness. Extensive evaluations on standard co-speech benchmarks show that GlobalDiff generates smooth and accurate motions, improving the performance by 46.0 % compared to the current SOTA under multiple speaker identities.
- Abstract(参考訳): 信頼性の高い共同音声の動作生成には、正確な動きの表現と全ての関節における一貫した構造的先行が必要である。
既存の生成法は通常、骨格構造に基づいて階層的に定義される局所的な関節回転で動作する。
これは生成中の累積誤差を生じさせ、エンドエフェクターにおける不安定で不可解な動きを示す。
本研究では,グローバルな関節回転の空間内で直接動作する拡散型フレームワークであるGlobalDiffを提案し,各関節の予測を上流依存性から根本的に分離し,階層的誤差の蓄積を軽減する。
グローバルな回転空間における構造的前提の欠如を補うため,マルチレベル制約方式を導入する。
具体的には、関節構造制約は、各関節の周囲に仮想アンカーポイントを導入し、よりきめ細かい方向を捉える。
骨格構造制約は、構造的整合性を維持するために骨間の角の整合性を強制する。
時間構造制約は、複数スケールの変分エンコーダを用いて、生成した動きを地絡時間パターンに整列させる。
これらの制約は、グローバル拡散プロセスを共同で調整し、構造的認識を強化する。
標準共音声ベンチマークの大規模な評価は、GlobalDiffがスムーズで正確な動きを発生し、現在のSOTAに比べて46.0%性能が向上していることを示している。
関連論文リスト
- Every Subtlety Counts: Fine-grained Person Independence Micro-Action Recognition via Distributionally Robust Optimization [36.230001277076376]
マイクロアクション認識は、心理的アセスメントと人間とコンピュータの相互作用に不可欠である。
既存の手法は現実のシナリオで失敗することが多い。
本稿では、分散ロバスト最適化の原則を取り入れた個人独立ユニバーサルマイクロアクション認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-25T14:54:24Z) - Kuramoto Orientation Diffusion Models [67.0711709825854]
指紋やテクスチャなどのオリエンテーションに富んだ画像は、しばしばコヒーレントな角模様を示す。
生体系における位相同期の役割を動機として,スコアベース生成モデルを提案する。
一般的な画像ベンチマークで競合する結果を実装し,指紋やテクスチャなどの指向性データセットの生成品質を大幅に向上する。
論文 参考訳(メタデータ) (2025-09-18T18:18:49Z) - GLCP: Global-to-Local Connectivity Preservation for Tubular Structure Segmentation [16.961703984508457]
本稿では,グローバル・ローカル・コネクティビティ保護(GLCP)フレームワークを提案する。
さらに,DAR(Dual-Attention-based Refinement)モジュールを設計し,セグメンテーション品質をさらに向上する。
我々のGLCPは、いくつかの最先端手法と比較して管状構造セグメンテーションの精度と連続性を向上する。
論文 参考訳(メタデータ) (2025-07-28T20:49:45Z) - ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation [21.732021702335345]
我々は,新しい階層型潜在空間で動作する拡散フレームワークであるtextbfReactDanceを紹介する。
ReactDanceは、動作品質、長期コヒーレンス、サンプリング効率において、最先端の手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-05-08T18:42:38Z) - Scalable Robust Bayesian Co-Clustering with Compositional ELBOs [2.6756996523251964]
共クラスタリングは、両方の次元において有意義なグループを明らかにするために、インスタンスと機能の双対性を利用する。
本稿では,列クラスタと列クラスタを直接学習する,完全変動型クラスタリングフレームワークについて紹介する。
提案手法は, 従来のコクラスタリング手法の利点を保ちながら, 精度とロバスト性にも優れる。
論文 参考訳(メタデータ) (2025-04-05T06:48:05Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Local-Global Temporal Difference Learning for Satellite Video Super-Resolution [53.03380679343968]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。