論文の概要: ANT: Adaptive Neural Temporal-Aware Text-to-Motion Model
- arxiv url: http://arxiv.org/abs/2506.02452v1
- Date: Tue, 03 Jun 2025 05:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.288629
- Title: ANT: Adaptive Neural Temporal-Aware Text-to-Motion Model
- Title(参考訳): ANT:適応型ニューラルテンポラルテキスト・トゥ・モーションモデル
- Authors: Wenshuo Chen, Kuimou Yu, Haozhe Jia, Kaishen Yuan, Bowen Tian, Songning Lai, Hongru Xiao, Erhang Zhang, Lei Wang, Yutao Yue,
- Abstract要約: 初期記述には運動基盤の構造的意味論が必要であるが、後段ではテキストアライメントの局所的詳細が必要である。
特殊化を規定するエピジェネティックな規則に着想を得て,**(ANT)**, an **A**daptive **N**eural **T**emporal-Awareアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.241144325317054
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While diffusion models advance text-to-motion generation, their static semantic conditioning ignores temporal-frequency demands: early denoising requires structural semantics for motion foundations while later stages need localized details for text alignment. This mismatch mirrors biological morphogenesis where developmental phases demand distinct genetic programs. Inspired by epigenetic regulation governing morphological specialization, we propose **(ANT)**, an **A**daptive **N**eural **T**emporal-Aware architecture. ANT orchestrates semantic granularity through: **(i) Semantic Temporally Adaptive (STA) Module:** Automatically partitions denoising into low-frequency structural planning and high-frequency refinement via spectral analysis. **(ii) Dynamic Classifier-Free Guidance scheduling (DCFG):** Adaptively adjusts conditional to unconditional ratio enhancing efficiency while maintaining fidelity. **(iii) Temporal-semantic reweighting:** Quantitatively aligns text influence with phase requirements. Extensive experiments show that ANT can be applied to various baselines, significantly improving model performance, and achieving state-of-the-art semantic alignment on StableMoFusion.
- Abstract(参考訳): 拡散モデルがテキスト・トゥ・モーション生成を推し進める一方で、静的なセマンティック・コンディショニングは時間周波数要求を無視している。
このミスマッチは、発達段階が異なる遺伝的プログラムを必要とする生物学的形態形成を反映している。
形態的特殊化を規定するエピジェネティックな規則に着想を得て,**(ANT)**, an **A**daptive **N*eural **T**emporal-Awareアーキテクチャを提案する。
ANT はセマンティックな粒度を整理する:*
(i)セマンティック・テンポラリ・アダプティブ(STA)モジュール:**低周波構造計画とスペクトル分析による高周波リファインメントの自動分割
※※
(II)動的分類器フリーガイダンススケジューリング(DCFG):** 適合性を維持しつつ条件付き・非条件比向上効率を適応的に調整する。
※※
(iii)時間-意味的再重み付け:** テキストの影響を位相要求と定量的に整合させる。
大規模な実験により、ANTは様々なベースラインに適用でき、モデル性能を大幅に改善し、StableMoFusion上で最先端のセマンティックアライメントを実現することが示されている。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。