論文の概要: FineXtrol: Controllable Motion Generation via Fine-Grained Text
- arxiv url: http://arxiv.org/abs/2511.18927v1
- Date: Mon, 24 Nov 2025 09:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.136108
- Title: FineXtrol: Controllable Motion Generation via Fine-Grained Text
- Title(参考訳): FineXtrol:微細テキストによる制御可能な運動生成
- Authors: Keming Shen, Bizhu Wu, Junliang Chen, Xiaoqin Wang, Linlin Shen,
- Abstract要約: FineXtrolは、時間的に認識され、正確で、ユーザフレンドリで、きめ細かいテキスト制御信号によってガイドされる、効率的なモーション生成のための新しいフレームワークである。
制御可能なモーション生成においてFineXtrolは高い性能を示す。
- 参考スコア(独自算出の注目度): 46.315592728110346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have sought to enhance the controllability and precision of text-driven motion generation. Some approaches leverage large language models (LLMs) to produce more detailed texts, while others incorporate global 3D coordinate sequences as additional control signals. However, the former often introduces misaligned details and lacks explicit temporal cues, and the latter incurs significant computational cost when converting coordinates to standard motion representations. To address these issues, we propose FineXtrol, a novel control framework for efficient motion generation guided by temporally-aware, precise, user-friendly, and fine-grained textual control signals that describe specific body part movements over time. In support of this framework, we design a hierarchical contrastive learning module that encourages the text encoder to produce more discriminative embeddings for our novel control signals, thereby improving motion controllability. Quantitative results show that FineXtrol achieves strong performance in controllable motion generation, while qualitative analysis demonstrates its flexibility in directing specific body part movements.
- Abstract(参考訳): 近年,テキスト駆動型モーションジェネレーションの制御性と精度の向上が試みられている。
大規模言語モデル(LLM)を利用してより詳細なテキストを生成するアプローチもあるが、グローバルな3D座標シーケンスを追加の制御信号として組み込むアプローチもある。
しかしながら、前者はしばしば不整合の詳細を導入し、明示的な時間的手がかりを欠き、後者は座標を標準運動表現に変換する際にかなりの計算コストを発生させる。
このような問題に対処するために、時間とともに特定の身体部分の動きを記述した時間的、正確で、ユーザフレンドリで、きめ細かいテキスト制御信号によってガイドされる、効率的な運動生成のための新しい制御フレームワークであるFineXtrolを提案する。
このフレームワークをサポートするために,テキストエンコーダが新たな制御信号に対してより差別的な埋め込みを生成することを奨励する階層的コントラスト学習モジュールを設計し,動作制御性を向上させる。
定量的結果から,FinXtrolは制御可能な動作生成において高い性能を示す一方,定性的解析は特定の身体部分の動きを指示する柔軟性を示す。
関連論文リスト
- Absolute Coordinates Make Motion Generation Easy [8.153961351540834]
最先端のテキスト・トゥ・モーション生成モデルは、HumanML3Dによって普及したキネマティック・アウェア、局所相対運動表現に依存している。
本稿では,大域空間における絶対的共同座標という,テキスト・トゥ・モーション生成の大幅な単純化と長期化の代替案を提案する。
論文 参考訳(メタデータ) (2025-05-26T00:36:00Z) - MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [55.15697390165972]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training [19.550281954226445]
テキスト・ツー・モーション・ジェネレーションでは、制御性だけでなく、生成品質やスピードもますます重要になっている。
高速で高品質で可変長のモーション生成が可能なMoLAを提案する。
論文 参考訳(メタデータ) (2024-06-04T00:38:44Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。