論文の概要: A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion
- arxiv url: http://arxiv.org/abs/2602.18199v1
- Date: Fri, 20 Feb 2026 13:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.335773
- Title: A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion
- Title(参考訳): テキスト・トゥ・モーションにおける物理プラズビリティ向上のための運動校正の自己監督的アプローチ
- Authors: Gahyeon Shim, Soogeun Park, Hyemin Ahn,
- Abstract要約: Distortion-Aware Motion Calibrator (DMC) は、物理的に不可解な動作を洗練させるポストホックモジュールである。
DMCは、故意に歪んだ動きと原文記述が入力として与えられるときに、物理的に妥当な動きを得る。
- 参考スコア(独自算出の注目度): 1.8074920103387633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating semantically aligned human motion from textual descriptions has made rapid progress, but ensuring both semantic and physical realism in motion remains a challenge. In this paper, we introduce the Distortion-aware Motion Calibrator (DMC), a post-hoc module that refines physically implausible motions (e.g., foot floating) while preserving semantic consistency with the original textual description. Rather than relying on complex physical modeling, we propose a self-supervised and data-driven approach, whereby DMC learns to obtain physically plausible motions when an intentionally distorted motion and the original textual descriptions are given as inputs. We evaluate DMC as a post-hoc module to improve motions obtained from various text-to-motion generation models and demonstrate its effectiveness in improving physical plausibility while enhancing semantic consistency. The experimental results show that DMC reduces FID score by 42.74% on T2M and 13.20% on T2M-GPT, while also achieving the highest R-Precision. When applied to high-quality models like MoMask, DMC improves the physical plausibility of motions by reducing penetration by 33.0% as well as adjusting floating artifacts closer to the ground-truth reference. These results highlight that DMC can serve as a promising post-hoc motion refinement framework for any kind of text-to-motion models by incorporating textual semantics and physical plausibility.
- Abstract(参考訳): テキスト記述から意味的に整合した人間の動作を生成することは、急速に進歩してきたが、動作における意味的および身体的リアリズムの両立は、依然として課題である。
本稿では,本文のテキスト記述と意味的整合性を保ちながら,身体的に不明瞭な動作(例えばフットフローティング)を洗練させるポストホックモジュールであるDistortion-Aware Motion Calibrator (DMC)を紹介する。
複雑な物理モデリングに頼るのではなく、DMCは、意図的に歪んだ動きと原文の記述を入力として与えたときに、物理的に妥当な動作を得ることができる自己教師付きデータ駆動型アプローチを提案する。
我々は,DMCをポストホックモジュールとして評価し,様々なテキスト・モーション生成モデルから得られる動作を改善するとともに,意味的整合性を高めつつ,身体的妥当性を向上させる効果を実証した。
実験の結果、DMCはT2Mでは42.74%、T2M-GPTでは13.20%、R-Precisionでは最高である。
MoMaskのような高品質のモデルに適用すると、DMCは33.0%の浸透率を減らし、地上トルス基準に近い浮かぶ人工物を調整することで、運動の物理的可視性を向上する。
これらの結果から,DMCはテキスト意味論と身体的妥当性を取り入れることで,どんな種類のテキスト・ムーブメント・モデルにも有望なポストホック・モーション・リファインメント・フレームワークとして機能することが示唆された。
関連論文リスト
- DiMo: Discrete Diffusion Modeling for Motion Generation and Understanding [25.254783224309488]
マスク付きモデリングからテキスト-モーション理解と生成まで拡張した,離散拡散スタイルのフレームワークであるDiMoを提案する。
動きをトークン化し、順次デコードするGPTスタイルの自己回帰アプローチとは異なり、DiMoは繰り返しマスク付きトークン精錬を行う。
HumanML3DとKIT-MLの実験は、強い運動品質と競合する双方向理解を示す。
論文 参考訳(メタデータ) (2026-02-04T04:01:02Z) - Articulated Kinematics Distillation from Video Diffusion Models [64.18346374534352]
Articulated Kinematics Distillation (AKD)は、高忠実度キャラクターアニメーションを生成するためのフレームワークである。
AKDはスケルトンに基づく3Dアセットの表現を使用しており、自由度(DoF)を大幅に削減している。
AKDは構造的整合性を維持しながら複雑な関節運動を蒸留する。
論文 参考訳(メタデータ) (2025-04-01T21:37:57Z) - A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。
また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。
本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-12-23T08:26:00Z) - Morph: A Motion-free Physics Optimization Framework for Human Motion Generation [28.009524143770076]
現在の運動生成は、物理学的な制約を無視し、物理的に不可解な運動をもたらす。
雑音の多い動きデータを用いて有効な運動物理学を訓練するためのフレームワークである textbfMorph を提案する。
我々のフレームワークは、身体的可視性を大幅に向上させながら、最先端の運動品質を実現する。
論文 参考訳(メタデータ) (2024-11-22T14:09:56Z) - ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model [9.525806425270428]
本稿では、強化学習と運動拡散モデルを組み合わせることで、物理的に信頼できる人間の動きを生成するEmphReinDiffuseを提案する。
動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。
我々のアプローチは、HumanML3DとKIT-MLという2つの主要なデータセット上で、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-09T16:24:11Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - TapMo: Shape-aware Motion Generation of Skeleton-free Characters [64.83230289993145]
骨格のない3Dキャラクタの広帯域における動作のためのテキスト駆動アニメーションパイプラインであるTapMoを提案する。
TapMoはMesh Handle PredictorとShape-aware Diffusion Moduleの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-19T12:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。