Fugu-MT 論文翻訳(概要): ANT: Adaptive Neural Temporal-Aware Text-to-Motion Model

論文の概要: ANT: Adaptive Neural Temporal-Aware Text-to-Motion Model

arxiv url: http://arxiv.org/abs/2506.02452v1
Date: Tue, 03 Jun 2025 05:17:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.288629
Title: ANT: Adaptive Neural Temporal-Aware Text-to-Motion Model
Title（参考訳）: ANT:適応型ニューラルテンポラルテキスト・トゥ・モーションモデル
Authors: Wenshuo Chen, Kuimou Yu, Haozhe Jia, Kaishen Yuan, Bowen Tian, Songning Lai, Hongru Xiao, Erhang Zhang, Lei Wang, Yutao Yue,
Abstract要約: 初期記述には運動基盤の構造的意味論が必要であるが、後段ではテキストアライメントの局所的詳細が必要である。特殊化を規定するエピジェネティックな規則に着想を得て,**(ANT)**, an **A**daptive **N**eural **T**emporal-Awareアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 5.241144325317054
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While diffusion models advance text-to-motion generation, their static semantic conditioning ignores temporal-frequency demands: early denoising requires structural semantics for motion foundations while later stages need localized details for text alignment. This mismatch mirrors biological morphogenesis where developmental phases demand distinct genetic programs. Inspired by epigenetic regulation governing morphological specialization, we propose **(ANT)**, an **A**daptive **N**eural **T**emporal-Aware architecture. ANT orchestrates semantic granularity through: **(i) Semantic Temporally Adaptive (STA) Module:** Automatically partitions denoising into low-frequency structural planning and high-frequency refinement via spectral analysis. **(ii) Dynamic Classifier-Free Guidance scheduling (DCFG):** Adaptively adjusts conditional to unconditional ratio enhancing efficiency while maintaining fidelity. **(iii) Temporal-semantic reweighting:** Quantitatively aligns text influence with phase requirements. Extensive experiments show that ANT can be applied to various baselines, significantly improving model performance, and achieving state-of-the-art semantic alignment on StableMoFusion.
Abstract（参考訳）: 拡散モデルがテキスト・トゥ・モーション生成を推し進める一方で、静的なセマンティック・コンディショニングは時間周波数要求を無視している。このミスマッチは、発達段階が異なる遺伝的プログラムを必要とする生物学的形態形成を反映している。形態的特殊化を規定するエピジェネティックな規則に着想を得て,**(ANT)**, an **A**daptive **N*eural **T**emporal-Awareアーキテクチャを提案する。 ANT はセマンティックな粒度を整理する:* (i)セマンティック・テンポラリ・アダプティブ(STA)モジュール:**低周波構造計画とスペクトル分析による高周波リファインメントの自動分割 ※※ (II)動的分類器フリーガイダンススケジューリング(DCFG):** 適合性を維持しつつ条件付き・非条件比向上効率を適応的に調整する。 ※※ (iii)時間-意味的再重み付け:** テキストの影響を位相要求と定量的に整合させる。大規模な実験により、ANTは様々なベースラインに適用でき、モデル性能を大幅に改善し、StableMoFusion上で最先端のセマンティックアライメントを実現することが示されている。

関連論文リスト

Optimizing Soft Prompt Tuning via Structural Evolution [44.99047637666981]
本稿では,位相的形態的進化に基づくソフトプロンプト最適化手法を提案する。具体的には、トポロジカルデータ解析から永続的ホモロジーを用いて、ソフトプロンプトの構造的表現を定量化する。我々は、トポロジカル・ソフト・プロンプト・ロス(TSLoss)と呼ばれるソフト・プロンプト・チューニングを最適化するための損失関数を構築する。
論文参考訳（メタデータ） (2026-02-18T14:43:20Z)
HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文参考訳（メタデータ） (2026-01-24T10:31:21Z)
FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。 FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文参考訳（メタデータ） (2025-11-26T08:36:33Z)
WavefrontDiffusion: Dynamic Decoding Schedule or Improved Reasoning [39.57157800995735]
本稿では,アクティブトークンのウェーブフロントを最終位置から外へ拡張する動的デコード手法であるWavefrontDiffusionを提案する。推論とコード生成の4つのベンチマークで、WavefrontDiffusionは最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-11-22T07:33:00Z)
HiGFA: Hierarchical Guidance for Fine-grained Data Augmentation with Diffusion Models [82.10385962490051]
生成拡散モデルは、データ拡張の約束を示す。きめ細かいタスクにそれらを適用することは、重大な課題である。 HiGFAは階層的な信頼性駆動型オーケストレーションであり、多様なが忠実な合成画像を生成する。
論文参考訳（メタデータ） (2025-11-16T10:46:16Z)
Temporal-Aware Iterative Speech Model for Dementia Detection [0.0]
音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
論文参考訳（メタデータ） (2025-09-26T01:56:07Z)
Adapting LLMs to Time Series Forecasting via Temporal Heterogeneity Modeling and Semantic Alignment [32.41581846555808]
大規模言語モデル(LLM)は、最近、自然言語処理における印象的な能力を実証した。時間的アライメントのモデル化と意味的アライメントの強化によりLLMに基づく予測を強化する統合フレームワークであるTALONを提案する。 7つの実世界のベンチマークの実験では、TALONはすべてのデータセットで優れたパフォーマンスを達成している。
論文参考訳（メタデータ） (2025-08-10T06:06:19Z)
Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting [12.591771385493509]
汎用ロバストネス・時間予測のためのビジョン・ファンデーション・モデル(VFM)を体系的に再プログラミングするフレームワークであるtextST-VFMを提案する。このフレームワークは、生の入力と補助的なSTフローを統合し、フローは動的キューとして解釈可能な軽量の時間差信号を符号化する。 Emphpre-VFMリプログラミングでは、Temporal-Aware Tokenを使用して、両方のブランチをVFM互換の機能空間に整列させる。 emphpost-VFMリプログラミングでは、分岐間の動的相互作用を可能にするバイラテラルクロスプロンプトコーディネートモジュールが導入されている。
論文参考訳（メタデータ） (2025-07-14T08:33:34Z)
Enhancing LLMs for Time Series Forecasting via Structure-Guided Cross-Modal Alignment [12.319685395140862]
本稿では,時系列データと言語データで共有される状態遷移グラフ構造を逐次モーダルとして活用・整合するフレームワークを提案する。複数のベンチマークの実験は、SGCMAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-19T14:30:41Z)
PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。 PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文参考訳（メタデータ） (2025-05-06T15:18:38Z)
FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文参考訳（メタデータ） (2024-11-26T15:48:12Z)
HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition [17.412985505938508]
内部言語モデル(LM)に基づく手法は、外部のLMに基づく手法で条件独立性に起因する誤り訂正を解決するために置換言語モデリング(PLM)を用いる。本稿では,アダプティブ・パーミューテーション(Adaptive Permutation, HAAP)を用いた階層的注意自己回帰モデルを提案する。
論文参考訳（メタデータ） (2024-05-15T06:41:43Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文参考訳（メタデータ） (2022-12-20T15:16:24Z)
Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文参考訳（メタデータ） (2020-12-08T18:59:32Z)
Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文参考訳（メタデータ） (2020-11-12T16:16:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。