論文の概要: Plan, Don't Pose: Long Composite Motion Generation with Text-Aligned BFM
- arxiv url: http://arxiv.org/abs/2605.29906v1
- Date: Thu, 28 May 2026 13:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.344972
- Title: Plan, Don't Pose: Long Composite Motion Generation with Text-Aligned BFM
- Title(参考訳): テキスト対応BFMによる長手複合動作生成
- Authors: Nikolay Shvetsov, Maksim Bobrin, Nazar Buzun, Dmitry V. Dylov,
- Abstract要約: テキスト・トゥ・モーション(T2M)生成は、キャラクターアニメーション、仮想アバター、人間とロボットの相互作用に広く応用されている。
我々は,T2M生成のための自然言語と事前訓練された行動基礎モデル(BFM)とを,重いエンドツーエンドのモーションジェネレータに頼らずに協調する最初のフレームワークであるText2BFMを提案する。
- 参考スコア(独自算出の注目度): 5.249866193981239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion (T2M) generation has broad applications in character animation, virtual avatars, and human-robot interaction. Existing methods typically generate pose trajectories or motion tokens directly from language, forcing a single model to handle semantic interpretation, long-horizon structure, and low-level physical realization. This coupling makes them costly and often unreliable for long, compositional, or semantically dense prompts. We propose Text2BFM, the first framework that aligns natural language with pretrained Behavioral Foundation Models (BFMs) for T2M generation without relying on heavy end-to-end motion generators. Text2BFM operates in the latent policy space of a frozen BFM, using it as an executable motion prior. A text-aligned variational behavioral bottleneck compresses BFM policy-latent sequences into compact motion representations that are compatible with language and preserve long-horizon behavioral structure. Generation is performed in this compact behavioral manifold with a lightweight conditional generator, and the resulting latent encoded behaviors are decoded into policy latents that drive the pretrained frozen BFM. By decoupling semantic planning from motion execution, Text2BFM achieves efficient, robust T2M generation and strong performance on long, compositional textual descriptions.
- Abstract(参考訳): テキスト・トゥ・モーション(T2M)生成は、キャラクターアニメーション、仮想アバター、人間とロボットの相互作用に広く応用されている。
既存の手法は通常、言語から直接ポーズトラジェクトリやモーショントークンを生成し、単一のモデルで意味論的解釈、長い水平構造、低レベルの物理的実現を処理せざるを得ない。
この結合は、長い、構成的、あるいは意味的に密接なプロンプトに対してコストがかかり、しばしば信頼性が低い。
我々は,T2M生成のための自然言語と事前訓練された行動基礎モデル(BFM)とを,重いエンドツーエンドのモーションジェネレータに頼らずに協調する最初のフレームワークであるText2BFMを提案する。
Text2BFMは凍結したBFMの潜在ポリシー空間で動作し、それ以前の実行可能な動作として使用する。
テキストアラインな変動行動ボトルネックは、BFMポリシーラテントシーケンスを言語と互換性のあるコンパクトな動き表現に圧縮し、長い水平動作構造を保持する。
軽量な条件生成器を備えたコンパクトな振舞い多様体において生成を行い、その結果、遅延符号化された振舞いを予め訓練された冷凍BFMを駆動するポリシー潜伏状態に復号する。
動作実行からセマンティックプランニングを分離することにより、Text2BFMは、効率的で堅牢なT2M生成と、長い、構成的な記述の強いパフォーマンスを実現する。
関連論文リスト
- TextLDM: Language Modeling with Continuous Latent Diffusion [89.69255520673248]
拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:54:34Z) - UMO: Unified In-Context Learning Unlocks Motion Foundation Model Priors [78.85130555487432]
UMOは、様々な下流タスクを原子単位の操作の合成にキャストする、単純だが汎用的な統一的な定式化である。
具体的には、フレーム単位のインテントを特定するために3つの学習可能なフレームレベルのメタオペレーション埋め込みを導入し、事前訓練されたバックボーンにコンテキスト内キューを注入するために、軽量の時間融合を採用している。
UMOは幅広いベンチマークでタスク固有のベースラインとトレーニング不要ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-16T22:44:52Z) - MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization [8.605691647343065]
既存の手法では,ジェスチャ生成にベクトル量子化トークンを伴って自己回帰モデルを用いるのが一般的である。
我々は、離散トークン化に頼ることなく、高品質で多様な音声合成のための新しいマルチモーダルアライメントフレームワークMAGを提案する。
論文 参考訳(メタデータ) (2025-03-18T09:02:02Z) - Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model [64.11605839142348]
textbfMotion-priors textbfConditional textbfDiffusion textbfModel(textbfMCDM)を導入する。
textbfTalkingFace-Wildデータセットもリリースしています。
論文 参考訳(メタデータ) (2025-02-13T17:50:23Z) - Fg-T2M++: LLMs-Augmented Fine-Grained Text Driven Human Motion Generation [19.094098673523263]
テキスト駆動型人体動作生成のための新しいフレームワークを提案する。
Fg-T2M++ は,(1) 身体部分の記述と意味をテキストから抽出する LLM 意味解析モジュール,(2) テキスト単位間の関係情報をエンコードする双曲的テキスト表現モジュール,(3) テキストと運動の特徴を階層的に融合するマルチモーダル融合モジュールからなる。
論文 参考訳(メタデータ) (2025-02-08T11:38:12Z) - FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。