Fugu-MT 論文翻訳(概要): PlanMoGPT: Flow-Enhanced Progressive Planning for Text to Motion Synthesis

論文の概要: PlanMoGPT: Flow-Enhanced Progressive Planning for Text to Motion Synthesis

arxiv url: http://arxiv.org/abs/2506.17912v1
Date: Sun, 22 Jun 2025 06:24:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.649844
Title: PlanMoGPT: Flow-Enhanced Progressive Planning for Text to Motion Synthesis
Title（参考訳）: PlanMoGPT: テキスト・モーション合成のためのフロー強化プログレッシブプランニング
Authors: Chuhao Jin, Haosen Li, Bingzi Zhang, Che Liu, Xiting Wang, Ruihua Song, Wenbing Huang, Ying Qin, Fuzheng Zhang, Di Zhang,
Abstract要約: PlanMoGPTは、プログレッシブプランニングとフロー強化された微細な動きトークン化を統合したLLMベースのフレームワークである。最先端のパフォーマンスを実現し、FIDスコアを63.8%向上させる(0.380から0.141)。提案したフレームワークは、現在の非LLMアプローチを悩ませる多様性と品質のトレードオフをうまく解決する。
参考スコア（独自算出の注目度）: 40.338618060111116
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large language models (LLMs) have enabled breakthroughs in many multimodal generation tasks, but a significant performance gap still exists in text-to-motion generation, where LLM-based methods lag far behind non-LLM methods. We identify the granularity of motion tokenization as a critical bottleneck: fine-grained tokenization induces local dependency issues, where LLMs overemphasize short-term coherence at the expense of global semantic alignment, while coarse-grained tokenization sacrifices motion details. To resolve this issue, we propose PlanMoGPT, an LLM-based framework integrating progressive planning and flow-enhanced fine-grained motion tokenization. First, our progressive planning mechanism leverages LLMs' autoregressive capabilities to hierarchically generate motion tokens by starting from sparse global plans and iteratively refining them into full sequences. Second, our flow-enhanced tokenizer doubles the downsampling resolution and expands the codebook size by eight times, minimizing detail loss during discretization, while a flow-enhanced decoder recovers motion nuances. Extensive experiments on text-to-motion benchmarks demonstrate that it achieves state-of-the-art performance, improving FID scores by 63.8% (from 0.380 to 0.141) on long-sequence generation while enhancing motion diversity by 49.9% compared to existing methods. The proposed framework successfully resolves the diversity-quality trade-off that plagues current non-LLM approaches, establishing new standards for text-to-motion generation.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、多くのマルチモーダル生成タスクにおいてブレークスルーを実現しているが、LLMベースのメソッドが非LLMメソッドよりもはるかに遅れているテキスト・トゥ・モーション生成において、大きなパフォーマンスギャップが残っている。微粒なトークン化は局所的な依存性の問題を引き起こすが、LLMはグローバルなセマンティックアライメントを犠牲にして短期的なコヒーレンスを過度に強調し、粗粒のトークン化は動きの詳細を犠牲にする。この問題を解決するため,LLMベースのフレームワークであるPlanMoGPTを提案する。まず, LLMの自己回帰機能を利用して, 粗いグローバルプランから始めて, 反復的に全シーケンスに書き換えることで, 動きトークンを階層的に生成する。第2に,フローエンハンスデコーダはダウンサンプリングの解像度を2倍にし,コードブックサイズを8倍に拡大し,離散化時の詳細損失を最小限に抑えるとともに,フローエンハンスデコーダは動きニュアンスを回復する。テキスト・トゥ・モーション・ベンチマークの大規模な実験により、従来の手法と比較して動作の多様性を49.9%向上させながら、FIDスコアを63.8%向上させた(0.380から0.141)。提案フレームワークは,現在の非LLMアプローチを悩ませる多様性品質トレードオフの解決に成功し,テキスト・ツー・モーション・ジェネレーションの新たな標準を確立する。

関連論文リスト

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳（メタデータ） (2025-05-26T15:46:53Z)
LSR-MCTS: Alleviating Long Range Dependency in Code Generation [42.10272627826627]
大規模言語モデル(LLM)は、コード生成タスクの開発を著しく促進している。本稿では,MCTS を利用した textbfLSR-MCTS アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-10T04:03:25Z)
Unlocking Pretrained LLMs for Motion-Related Multimodal Generation: A Fine-Tuning Approach to Unify Diffusion and Next-Token Prediction [2.997267793609097]
MoMugは拡散に基づく連続運動生成とモデル固有の自己回帰的な離散テキスト予測機能を統合する。 MoMugはFIDを38%改善し、7つのメトリクスの平均精度を16.61%向上させた。
論文参考訳（メタデータ） (2025-03-08T08:16:16Z)
LeMo: Enabling LEss Token Involvement for MOre Context Fine-tuning [38.35238373706948]
LeMoはLLMファインチューニングシステムで、長いコンテキストシナリオに固有の新しいトークンレベルのスペーサ性メカニズムを利用する。 LeMoは最大1.93倍のメモリ消費を削減し、最大1.36倍のスピードアップを実現し、最先端の微調整システムより優れている。
論文参考訳（メタデータ） (2025-01-15T05:17:12Z)
MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文参考訳（メタデータ） (2024-11-26T17:53:44Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning [78.2390460278551]
従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM3 を提案する。具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。
論文参考訳（メタデータ） (2024-03-18T08:03:47Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。