論文の概要: SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction
- arxiv url: http://arxiv.org/abs/2503.18211v2
- Date: Tue, 25 Mar 2025 20:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 09:39:28.809268
- Title: SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction
- Title(参考訳): SimMotionEdit: 動作類似性予測によるテキストベースのヒューマンモーション編集
- Authors: Zhengyuan Li, Kai Cheng, Anindita Ghosh, Uttaran Bhattacharya, Liangyan Gui, Aniket Bera,
- Abstract要約: 本稿では,関連するタスク,動作類似度予測を導入し,マルチタスク学習パラダイムを提案する。
我々は、意味論的意味のある表現の学習を促進するために、動きの編集と動きの類似性予測を共同で訓練する。
実験は、アライメントと忠実さの両面において、我々のアプローチの最先端性能を実証した。
- 参考スコア(独自算出の注目度): 20.89960239295474
- License:
- Abstract: Text-based 3D human motion editing is a critical yet challenging task in computer vision and graphics. While training-free approaches have been explored, the recent release of the MotionFix dataset, which includes source-text-motion triplets, has opened new avenues for training, yielding promising results. However, existing methods struggle with precise control, often leading to misalignment between motion semantics and language instructions. In this paper, we introduce a related task, motion similarity prediction, and propose a multi-task training paradigm, where we train the model jointly on motion editing and motion similarity prediction to foster the learning of semantically meaningful representations. To complement this task, we design an advanced Diffusion-Transformer-based architecture that separately handles motion similarity prediction and motion editing. Extensive experiments demonstrate the state-of-the-art performance of our approach in both editing alignment and fidelity.
- Abstract(参考訳): テキストベースの人間の3Dモーション編集はコンピュータビジョンとグラフィックスにおいて重要な課題である。
トレーニングなしのアプローチが検討されている一方で、ソーステキストモーション三脚を含むMotionFixデータセットの最近のリリースでは、トレーニングのための新たな道が開かれ、有望な結果が得られている。
しかし、既存の手法は正確な制御に苦しむため、しばしば動作意味論と言語命令の不一致につながる。
本稿では,関連課題,動作類似度予測,マルチタスク学習パラダイムを提案する。このパラダイムでは,動作の編集と動作類似度予測を併用してモデルをトレーニングし,意味論的意味のある表現の学習を促進する。
この課題を補完するために,動作類似性予測と動作編集を別々に扱う高度な拡散変換器アーキテクチャを設計する。
集約的な実験は、編集アライメントと忠実度の両方において、我々のアプローチの最先端性能を実証する。
関連論文リスト
- Leader and Follower: Interactive Motion Generation under Trajectory Constraints [42.90788442575116]
本稿では,対話型モーションジェネレーションにおける動作範囲改善過程について検討する。
Pace ControllerとKinematic Synchronization Adapterを統合した、トレーニング不要のアプローチを提案する。
実験結果から,提案手法は軌道情報をよりよく活用することにより,既存の手法よりも現実性と精度が優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-17T08:52:45Z) - MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm [6.920041357348772]
人間の動きの生成と編集はコンピュータグラフィックスと視覚の重要な要素である。
本稿では,多様なタスクの統一的な定式化を可能にする新しいパラダイムであるMotion-Condition-Motionを紹介する。
このパラダイムに基づいて、ソースモーションからターゲットモーションへのマッピングを学習するために、修正フローを組み込んだ統合フレームワーク、MotionLabを提案する。
論文 参考訳(メタデータ) (2025-02-04T14:43:26Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
単一の粗い記述は、速度の変化、手足の位置決め、運動力学などの詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークである textbfKinMo を紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。