Fugu-MT 論文翻訳(概要): Temporal Consistency-Aware Text-to-Motion Generation

論文の概要: Temporal Consistency-Aware Text-to-Motion Generation

arxiv url: http://arxiv.org/abs/2602.18057v1
Date: Fri, 20 Feb 2026 08:17:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.267073
Title: Temporal Consistency-Aware Text-to-Motion Generation
Title（参考訳）: 時間的一貫性を考慮したテキスト間テキスト生成
Authors: Hongsong Wang, Wenjing Yan, Qiuxia Lai, Xin Geng,
Abstract要約: 時間的一貫性を考慮したT2M生成フレームワークTCA-T2Mを提案する。本稿では,時間的整合性を考慮した時空間VQ-VAEを提案する。 HumanML3DとKIT-MLベンチマークの実験は、TCA-T2Mが最先端のパフォーマンスを達成することを示した。
参考スコア（独自算出の注目度）: 41.71400323450202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-Motion (T2M) generation aims to synthesize realistic human motion sequences from natural language descriptions. While two-stage frameworks leveraging discrete motion representations have advanced T2M research, they often neglect cross-sequence temporal consistency, i.e., the shared temporal structures present across different instances of the same action. This leads to semantic misalignments and physically implausible motions. To address this limitation, we propose TCA-T2M, a framework for temporal consistency-aware T2M generation. Our approach introduces a temporal consistency-aware spatial VQ-VAE (TCaS-VQ-VAE) for cross-sequence temporal alignment, coupled with a masked motion transformer for text-conditioned motion generation. Additionally, a kinematic constraint block mitigates discretization artifacts to ensure physical plausibility. Experiments on HumanML3D and KIT-ML benchmarks demonstrate that TCA-T2M achieves state-of-the-art performance, highlighting the importance of temporal consistency in robust and coherent T2M generation.
Abstract（参考訳）: テキスト・トゥ・モーション(T2M)生成は、自然言語記述から現実的な人間の動作シーケンスを合成することを目的としている。離散的な動き表現を利用する2段階のフレームワークは、T2Mの研究を進歩させてきたが、それらはしばしばクロスシーケンスの時間的一貫性を無視している。これは意味的なミスアライメントと物理的に不可解な動作につながる。この制限に対処するため,時間的整合性を考慮したT2M生成フレームワークTA-T2Mを提案する。本手法では,時間的整合性を考慮した時空間VQ-VAE(TCaS-VQ-VAE)を導入した。さらに、キネマティック制約ブロックは、離散化アーティファクトを緩和し、物理的妥当性を保証する。 HumanML3DとKIT-MLベンチマークの実験では、TA-T2Mが最先端のパフォーマンスを実現し、堅牢で一貫性のあるT2M生成における時間的一貫性の重要性を強調している。

関連論文リスト

T2M Mamba: Motion Periodicity-Saliency Coupling Approach for Stable Text-Driven Motion Generation [3.6564162676635363]
アバターアニメーションやヒューマノイドロボットのインタラクションといった分野において、テキスト・トゥ・モーション・ジェネレーションが注目を集めている。モデルは、動き周期性とサリエンシを独立した要因として扱い、それらの結合を見下ろし、長いシーケンスで生成のドリフトを引き起こす。本稿では,この制限に対処するT2M Mambaを提案する。
論文参考訳（メタデータ） (2026-02-01T17:42:53Z)
TaCo: Capturing Spatio-Temporal Semantic Consistency in Remote Sensing Change Detection [54.22717266034045]
Ta-Coは時間的意味遷移のための一貫したセマンティックネットワークである。我々は,Ta-Coがリモートセンシング検出タスクにおいて一貫したSOTA性能を実現することを示す。この設計は推論中に余分な計算オーバーヘッドを伴わずにかなりの利得を得ることができる。
論文参考訳（メタデータ） (2025-11-25T13:44:29Z)
Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。 Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文参考訳（メタデータ） (2025-09-18T03:51:06Z)
Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T06:54:44Z)
MotionGPT3: Human Motion as a Second Modality [28.616340011811843]
MotionGPT3は、理解と生成の両方のためのバイモーダルモーション言語モデルである。共通注意を持つデュアルストリームトランスは、制御された双方向情報フローを実現しつつ、モダリティ固有の経路を保存する。実験により、MotionGPT3はトレーニング損失の2倍高速収束、検証の最大4倍高速収束を実現している。
論文参考訳（メタデータ） (2025-06-30T17:42:22Z)
TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting [22.01157165112828]
我々は、単一のMLLM拡散アーキテクチャにおいて、TDとFSIFを共同で実行するように設計された最初の統合フレームワークであるTAMMを紹介する。 TAMMは2つの重要なイノベーションを紹介している: 時間適応モジュール(TAM)は、凍ったMLLMの長距離力学の理解能力を強化し、セマンティック・フューズド・コントロール・インジェクション(SFCI)機構は、この変化の理解をきめ細かな生成制御に変換する。大規模な実験では、TAMMは両方のタスクにおける最先端の専門家のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-06-23T17:26:16Z)
STaR: Seamless Spatial-Temporal Aware Motion Retargeting with Penetration and Consistency Constraints [12.307413108334657]
時空間運動再ターゲティング(STaR)のための新しいシーケンス・ツー・シーケンスモデルを提案する。 STaRは,(1)高密度な形状表現を組み込んだ空間モジュールと,(2)動きのセマンティクスを保ちながら幾何的可視性を確保するための新しい手足浸透制約と,(2)時間変換器と時間的整合性制約を用いて,多段軌道の滑らかさを保ちながら運動列全体を同時に予測する時間モジュールの2つのモジュールから構成される。
論文参考訳（メタデータ） (2025-04-09T00:37:08Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [28.38307253613529]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。 MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文参考訳（メタデータ） (2025-01-08T16:41:31Z)
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文参考訳（メタデータ） (2023-12-07T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。