論文の概要: Progressive Human Motion Generation Based on Text and Few Motion Frames
- arxiv url: http://arxiv.org/abs/2503.13300v1
- Date: Mon, 17 Mar 2025 15:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:04.696666
- Title: Progressive Human Motion Generation Based on Text and Few Motion Frames
- Title(参考訳): テキストと少数の動きフレームに基づく進行的人間の動き生成
- Authors: Ling-An Zeng, Gaojie Wu, Ancong Wu, Jian-Fang Hu, Wei-Shi Zheng,
- Abstract要約: Text-Frame-to-Motion (TF2M) の生成タスクは、テキストから動きを生成することを目的としており、与えられたフレームはほとんどない。
本稿では,不確実性の低いフレームから動きを段階的に生成する新しいプログレッシブモーション生成法を提案する。
我々のPMGは、既存のT2M生成方法よりも、1フレームでも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 41.00546984852018
- License:
- Abstract: Although existing text-to-motion (T2M) methods can produce realistic human motion from text description, it is still difficult to align the generated motion with the desired postures since using text alone is insufficient for precisely describing diverse postures. To achieve more controllable generation, an intuitive way is to allow the user to input a few motion frames describing precise desired postures. Thus, we explore a new Text-Frame-to-Motion (TF2M) generation task that aims to generate motions from text and very few given frames. Intuitively, the closer a frame is to a given frame, the lower the uncertainty of this frame is when conditioned on this given frame. Hence, we propose a novel Progressive Motion Generation (PMG) method to progressively generate a motion from the frames with low uncertainty to those with high uncertainty in multiple stages. During each stage, new frames are generated by a Text-Frame Guided Generator conditioned on frame-aware semantics of the text, given frames, and frames generated in previous stages. Additionally, to alleviate the train-test gap caused by multi-stage accumulation of incorrectly generated frames during testing, we propose a Pseudo-frame Replacement Strategy for training. Experimental results show that our PMG outperforms existing T2M generation methods by a large margin with even one given frame, validating the effectiveness of our PMG. Code will be released.
- Abstract(参考訳): 既存のテキスト・トゥ・モーション(T2M)法はテキスト記述からリアルな人間の動きを生成できるが,テキストのみを用いることだけで様々な姿勢を正確に記述できないため,生成した動きを所望の姿勢に合わせることは依然として困難である。
より制御可能な生成を実現するために、ユーザが正確に所望の姿勢を示すいくつかのモーションフレームを入力できるようにする直感的な方法がある。
そこで本研究では,テキストから動きを生成することを目的とした新しいテキストフレーム・トゥ・モーション(TF2M)生成タスクについて検討する。
直感的には、フレームが与えられたフレームに近づくほど、このフレームの不確実性が低下する。
そこで本研究では,複数の段階において不確実性が高いフレームに対して,不確実性が高いフレームから進行的に動きを発生させる,新しいプログレッシブモーション生成法を提案する。
各段階で、テキスト、所定のフレーム、および以前のステージで生成されたフレームのフレーム認識セマンティクスに基づいて、テキストフレームガイドジェネレータによって新しいフレームが生成される。
また,テスト中に生成したフレームの多段階蓄積による列車試験ギャップを軽減するために,擬似フレーム置換戦略を提案する。
実験の結果,PMGは既存のT2M生成手法よりも1フレームでも大きなマージンで優れており,PMGの有効性が検証された。
コードはリリースされる。
関連論文リスト
- Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Pose-Guided Fine-Grained Sign Language Video Generation [18.167413937989867]
本稿では,細粒度かつ動きに一貫性のある手話ビデオを生成するための新しい Pose-Guided Motion Model (PGMM) を提案する。
まず,光学式フローワープによる特徴量の変形を解消する新しい粗い運動モジュール(CMM)を提案する。
第2に、RGBのモーダル融合とポーズ特徴を導く新しいPose Fusion Module (PFM)を提案する。
論文 参考訳(メタデータ) (2024-09-25T07:54:53Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - Towards Frame Rate Agnostic Multi-Object Tracking [76.82407173177138]
本稿では,FraMOT 問題に初めて取り組むために,FAPS を用いたフレームレート非依存MOT フレームワークを提案する。
具体的には,フレームレート情報を推論し,符号化するフレームレートアグノスティックアソシエーションモジュール(FAAM)を提案する。
FAPSは、パターンマッチングと融合を追跡することによって、トレーニングにおけるすべての後処理ステップを反映する。
論文 参考訳(メタデータ) (2022-09-23T04:25:19Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。