論文の概要: TSTMotion: Training-free Scene-aware Text-to-motion Generation
- arxiv url: http://arxiv.org/abs/2505.01182v2
- Date: Mon, 05 May 2025 05:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 12:43:32.067475
- Title: TSTMotion: Training-free Scene-aware Text-to-motion Generation
- Title(参考訳): TSTMotion: トレーニング不要のシーン対応テキスト・ツー・モーション・ジェネレーション
- Authors: Ziyan Guo, Haoxuan Qu, Hossein Rahmani, Dewen Soh, Ping Hu, Qiuhong Ke, Jun Liu,
- Abstract要約: 我々はtextbfTSTMotion と呼ばれる textbfTraining-free textbfText-to-textbfMotion フレームワークを提案する。
本フレームワークは,シーン認識機能により,事前学習した背景運動生成装置を効果的に活用する。
- 参考スコア(独自算出の注目度): 35.05281879365437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-motion generation has recently garnered significant research interest, primarily focusing on generating human motion sequences in blank backgrounds. However, human motions commonly occur within diverse 3D scenes, which has prompted exploration into scene-aware text-to-motion generation methods. Yet, existing scene-aware methods often rely on large-scale ground-truth motion sequences in diverse 3D scenes, which poses practical challenges due to the expensive cost. To mitigate this challenge, we are the first to propose a \textbf{T}raining-free \textbf{S}cene-aware \textbf{T}ext-to-\textbf{Motion} framework, dubbed as \textbf{TSTMotion}, that efficiently empowers pre-trained blank-background motion generators with the scene-aware capability. Specifically, conditioned on the given 3D scene and text description, we adopt foundation models together to reason, predict and validate a scene-aware motion guidance. Then, the motion guidance is incorporated into the blank-background motion generators with two modifications, resulting in scene-aware text-driven motion sequences. Extensive experiments demonstrate the efficacy and generalizability of our proposed framework. We release our code in \href{https://tstmotion.github.io/}{Project Page}.
- Abstract(参考訳): 最近、テキスト・トゥ・モーション・ジェネレーションは、主に空白背景における人間の動作シーケンスの生成に焦点を当てた、重要な研究の関心を集めている。
しかし、人間の動きは多種多様な3Dシーンで一般的に発生し、シーン対応のテキスト・モーション・ジェネレーションの手法を探究するきっかけとなった。
しかし,既存のシーン認識方式は,多種多様な3次元シーンにおいて大規模で地中構造に頼っていることが多いため,コストがかかるため,現実的な課題が生じる。
この課題を緩和するために、私たちは最初に、事前訓練された空白背景モーションジェネレータをシーン認識機能で効率的に活用する、 \textbf{T}raining-free \textbf{S}cene-aware \textbf{T}ext-to-\textbf{Motion}フレームワークを提案する。
具体的には、与えられた3Dシーンとテキスト記述に基づいて、基本モデルを用いて、シーン認識動作ガイダンスの推論、予測、検証を行う。
そして、この動作誘導を2つの修正を加えて空白背景運動発生装置に組み込み、シーン対応のテキスト駆動動作シーケンスを生成する。
大規模な実験により,提案フレームワークの有効性と一般化性を示す。
私たちはコードを \href{https://tstmotion.github.io/}{Project Page} でリリースします。
関連論文リスト
- SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control [36.22743674288336]
SCENICは仮想シーン内の動的地形に適応する人間の動きを生成するために設計された拡散モデルである。
本システムは,シーン制約を維持しながら,異なる動作スタイル間のシームレスな遷移を実現する。
私たちのコード、データセット、モデルはurlhttps://virtual humans.mpi-inf.mpg.de/scenic/でリリースされます。
論文 参考訳(メタデータ) (2024-12-20T08:25:15Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - GPT-Connect: Interaction between Text-Driven Human Motion Generator and 3D Scenes in a Training-free Manner [5.903211249953432]
テキスト駆動のモーションジェネレータは、通常、空白の背景でモーションシーケンスを生成するためにのみ設計されている。
GPT接続では、既存の空白背景の人体モーションジェネレータを直接利用して、シーン認識のモーションシーケンスを生成できる。
論文 参考訳(メタデータ) (2024-03-22T04:39:15Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - AttT2M: Text-Driven Human Motion Generation with Multi-Perspective
Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。
本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-09-02T02:18:17Z) - Generating Continual Human Motion in Diverse 3D Scenes [51.90506920301473]
本研究では,3次元シーンにまたがる人間の動きを誘導するアニメーターを合成する手法を提案する。
本研究では,連続的な動作合成問題を経路に沿って歩行し,キーポイントが指定した動作の内外への遷移に分解する。
我々のモデルは、つかんだり、座ったり、傾いたりといった多様な行動の長いシーケンスを生成することができる。
論文 参考訳(メタデータ) (2023-04-04T18:24:22Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。