論文の概要: Text-driven Motion Generation: Overview, Challenges and Directions
- arxiv url: http://arxiv.org/abs/2505.09379v1
- Date: Wed, 14 May 2025 13:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.472316
- Title: Text-driven Motion Generation: Overview, Challenges and Directions
- Title(参考訳): テキスト駆動モーション生成 - 概観, 課題, 方向性
- Authors: Ali Rida Sahili, Najett Neji, Hedi Tabia,
- Abstract要約: テキスト駆動モーション生成は、自然言語から直接人間の動きを生成する、強力で直感的な方法を提供する。
これは、仮想現実、ゲーム、人間とコンピュータのインタラクション、ロボット工学などの分野で特に有用である。
この分野が現在どこにあるのかを把握し、重要な課題や限界に注意を向け、将来の探査に向けた有望な方向性を明らかにすることを目指しています。
- 参考スコア(独自算出の注目度): 5.292618442300405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven motion generation offers a powerful and intuitive way to create human movements directly from natural language. By removing the need for predefined motion inputs, it provides a flexible and accessible approach to controlling animated characters. This makes it especially useful in areas like virtual reality, gaming, human-computer interaction, and robotics. In this review, we first revisit the traditional perspective on motion synthesis, where models focused on predicting future poses from observed initial sequences, often conditioned on action labels. We then provide a comprehensive and structured survey of modern text-to-motion generation approaches, categorizing them from two complementary perspectives: (i) architectural, dividing methods into VAE-based, diffusion-based, and hybrid models; and (ii) motion representation, distinguishing between discrete and continuous motion generation strategies. In addition, we explore the most widely used datasets, evaluation methods, and recent benchmarks that have shaped progress in this area. With this survey, we aim to capture where the field currently stands, bring attention to its key challenges and limitations, and highlight promising directions for future exploration. We hope this work offers a valuable starting point for researchers and practitioners working to push the boundaries of language-driven human motion synthesis.
- Abstract(参考訳): テキスト駆動モーション生成は、自然言語から直接人間の動きを生成する、強力で直感的な方法を提供する。
事前に定義されたモーション入力を不要にすることで、アニメーション文字を制御するための柔軟でアクセスしやすいアプローチを提供する。
これは、仮想現実、ゲーム、人間とコンピュータのインタラクション、ロボット工学などの分野で特に有用である。
本稿では、まず、動作合成における従来の視点を再考し、観察された初期シーケンスから将来のポーズを予測することに焦点を当てたモデルについて、しばしばアクションラベルに条件付けする。
次に、2つの相補的な視点から分類し、現代テキスト・モーション生成のアプローチを包括的かつ構造化した調査を行う。
一 VAE に基づく拡散モデル及びハイブリッドモデルに区分する建築的方法
(II) 離散的と連続的な動き生成戦略を区別した動き表現。
さらに、最も広く使われているデータセット、評価方法、およびこの分野の進歩を形作った最近のベンチマークについても検討する。
本調査では,現在位置を把握し,重要な課題や限界に注意を向け,今後の探査に向けた有望な方向性を明らかにすることを目的としている。
この研究が、言語駆動の人間のモーション合成の境界を押し進めようとしている研究者や実践者にとって、貴重な出発点になることを願っている。
関連論文リスト
- Motion Generation: A Survey of Generative Approaches and Benchmarks [1.4254358932994455]
我々は,その基盤となる生成戦略に基づいて,動作生成手法の詳細な分類を行う。
我々の主な焦点は、2023年以降のトップレベルの会場で発行された論文であり、この分野の最新の進歩を反映している。
アーキテクチャの原則、条件付け機構、生成設定を分析し、文献で使用される評価指標とデータセットの詳細な概要をコンパイルする。
論文 参考訳(メタデータ) (2025-07-07T19:04:56Z) - UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。
UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。
提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文 参考訳(メタデータ) (2025-05-19T07:02:12Z) - Motion Generation Review: Exploring Deep Learning for Lifelike Animation with Manifold [4.853986914715961]
人間のモーション生成は、ゲーム、バーチャルリアリティ、人間とコンピュータの相互作用で広く使われている人間の身体のポーズの自然なシーケンスを作成することを含む。
これまでの研究は、動き、音楽、テキスト、シーンの背景といった信号に基づいて、モーション生成に重点を置いてきた。
マンデラ学習は、データ次元を減らし、効果的な動きのサブスペースをキャプチャすることで解決策を提供する。
論文 参考訳(メタデータ) (2024-12-12T08:27:15Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
単一の粗い記述は、速度の変化、手足の位置決め、運動力学などの詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークである textbfKinMo を紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Human Motion Generation: A Survey [67.38982546213371]
人間の動き生成は、自然の人間のポーズシーケンスを生成し、現実世界の応用に大きな可能性を示すことを目的としている。
この分野のほとんどの研究は、テキスト、オーディオ、シーンコンテキストなどの条件信号に基づいて人間の動きを生成することに焦点を当てている。
本稿では,人間の動作生成に関する総合的な文献レビューを紹介する。
論文 参考訳(メタデータ) (2023-07-20T14:15:20Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。