論文の概要: Pose-Guided Residual Refinement for Interpretable Text-to-Motion Generation and Editing
- arxiv url: http://arxiv.org/abs/2512.22464v1
- Date: Sat, 27 Dec 2025 04:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.067261
- Title: Pose-Guided Residual Refinement for Interpretable Text-to-Motion Generation and Editing
- Title(参考訳): テキスト・ツー・モージョン生成・編集のためのポーズガイド残差補正
- Authors: Sukhyun Jeong, Yong-Hoon Choi,
- Abstract要約: 本稿では、残差ベクトル量子化(RVQ)によって学習された残差符号で解釈可能なポーズコードを拡張するハイブリッド表現であるPGR$2$Mを導入する。
ベーストランスフォーマーはテキストからポーズコードを自動的に予測し、洗練されたトランスフォーマーはテキスト、ポーズコード、量子化ステージで条件付けられた残留コードを予測する。
HumanML3DとKIT-MLの実験では、PGR$2$Mは、CoMoと比べて生成と編集の両方においてフレシェ距離と再構成の指標を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based 3D motion generation aims to automatically synthesize diverse motions from natural-language descriptions to extend user creativity, whereas motion editing modifies an existing motion sequence in response to text while preserving its overall structure. Pose-code-based frameworks such as CoMo map quantifiable pose attributes into discrete pose codes that support interpretable motion control, but their frame-wise representation struggles to capture subtle temporal dynamics and high-frequency details, often degrading reconstruction fidelity and local controllability. To address this limitation, we introduce pose-guided residual refinement for motion (PGR$^2$M), a hybrid representation that augments interpretable pose codes with residual codes learned via residual vector quantization (RVQ). A pose-guided RVQ tokenizer decomposes motion into pose latents that encode coarse global structure and residual latents that model fine-grained temporal variations. Residual dropout further discourages over-reliance on residuals, preserving the semantic alignment and editability of the pose codes. On top of this tokenizer, a base Transformer autoregressively predicts pose codes from text, and a refine Transformer predicts residual codes conditioned on text, pose codes, and quantization stage. Experiments on HumanML3D and KIT-ML show that PGR$^2$M improves Fréchet inception distance and reconstruction metrics for both generation and editing compared with CoMo and recent diffusion- and tokenization-based baselines, while user studies confirm that it enables intuitive, structure-preserving motion edits.
- Abstract(参考訳): テキストベースの3Dモーション生成は、自然言語による記述から多様な動きを自動的に合成し、ユーザの創造性を高めることを目的としている。
CoMoマップのようなPose-codeベースのフレームワークは、解釈可能なモーションコントロールをサポートする個別のポーズコードに属性を量子化するが、フレームワイドの表現は微妙な時間的ダイナミクスと高周波の詳細を捉えるのに苦労し、しばしば再構成の忠実さと局所的な制御性を低下させる。
この制限に対処するために、我々は、残差ベクトル量子化(RVQ)によって学習された残差符号で解釈可能なポーズコードを拡張するハイブリッド表現であるPGR$^2$Mを導入する。
ポーズ誘導型RVQトークンーザは、動きを粗い大域構造と微粒な時間変動をモデル化する残留潜水剤を符号化するポーズ潜水剤に分解する。
残余のドロップアウトは、ポーズコードのセマンティックアライメントと編集性を維持するため、残余に対する過度な信頼をさらに損なう。
このトークンライザの上に、ベーストランスフォーマーがテキストからポーズコードを自動的に予測し、洗練されたトランスフォーマーがテキスト、ポーズコード、量子化ステージを予測します。
HumanML3DとKIT-MLの実験により、PGR$^2$Mは、CoMoや最近の拡散・トークン化に基づくベースラインと比較して、フレシェ開始距離と復元距離を向上し、またユーザスタディでは、直感的で構造保存されたモーション編集を可能にすることを確認した。
関連論文リスト
- Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment [92.57576987521107]
両ドメインのプログレッシブな時間的アライメントと品質条件の混合(QCMoE)を備えた新しい統合変換フレームワークを提案する。
QCMoEは、魅力的なR-Dパフォーマンスで連続的かつ一貫したレート制御を可能にする。
実験結果から,提案手法は最先端技術と比較して,競争力のあるR-D性能を実現することが示された。
論文 参考訳(メタデータ) (2025-12-11T09:14:51Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Making Pose Representations More Expressive and Disentangled via Residual Vector Quantization [0.0]
本稿では,残差ベクトル量子化(RVQ)を用いた連続的な動き特徴を持つコードベースの潜在表現を補足する手法を提案する。
この設計は、ポーズ符号の解釈可能性や操作性を維持しつつ、高周波詳細などの微妙な動き特性を効果的に捉えている。
論文 参考訳(メタデータ) (2025-08-20T09:29:21Z) - MOGO: Residual Quantized Hierarchical Causal Transformer for High-Quality and Real-Time 3D Human Motion Generation [3.6669020073583756]
MOGOは、効率的でリアルタイムな3Dモーション生成に適した新しい自動回帰フレームワークである。
MoGOは、運動スケール適応型残留ベクトル量子化モジュールであるMoSA-VQと、残留量子化階層型因果変換器であるRQHC-Transformerの2つの重要なコンポーネントから構成される。
意味的忠実性を高めるために,テキスト制御下での動作復号化を改善するテキスト条件アライメント機構を導入する。
論文 参考訳(メタデータ) (2025-06-06T10:26:54Z) - Absolute Coordinates Make Motion Generation Easy [8.153961351540834]
最先端のテキスト・トゥ・モーション生成モデルは、HumanML3Dによって普及したキネマティック・アウェア、局所相対運動表現に依存している。
本稿では,大域空間における絶対的共同座標という,テキスト・トゥ・モーション生成の大幅な単純化と長期化の代替案を提案する。
論文 参考訳(メタデータ) (2025-05-26T00:36:00Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes [59.23385953161328]
動的シーンのための新しいビュー合成は、コンピュータビジョンとグラフィックスにおいて依然として難しい問題である。
本稿では,動的シーンの動作と外観を疎制御点と高密度ガウスに明示的に分解する新しい表現を提案する。
提案手法は,高忠実度な外観を維持しつつ,ユーザ制御のモーション編集を可能にする。
論文 参考訳(メタデータ) (2023-12-04T11:57:14Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。