論文の概要: OmniMoGen: Unifying Human Motion Generation via Learning from Interleaved Text-Motion Instructions
- arxiv url: http://arxiv.org/abs/2512.19159v1
- Date: Mon, 22 Dec 2025 08:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.681131
- Title: OmniMoGen: Unifying Human Motion Generation via Learning from Interleaved Text-Motion Instructions
- Title(参考訳): OmniMoGen: インターリーブテキスト・モーション・インストラクションから学ぶ人間のモーション・ジェネレーション
- Authors: Wendong Bu, Kaihang Pan, Yuze Lin, Jiacheng Li, Kai Shen, Wenqiao Zhang, Juncheng Li, Jun Xiao, Siliang Tang,
- Abstract要約: テキスト移動命令をインターリーブすることで,多目的な動作生成を可能にする統一的なフレームワークを提案する。
簡潔なRVQ-VAEとトランスフォーマーアーキテクチャを基盤として、OmniMoGenはエンドツーエンドの命令駆動モーション生成をサポートする。
実験によると、OmniMoGenはテキスト・トゥ・モーション、モーション・編集、AnyContextで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 50.40879516807197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have unified diverse linguistic tasks within a single framework, yet such unification remains unexplored in human motion generation. Existing methods are confined to isolated tasks, limiting flexibility for free-form and omni-objective generation. To address this, we propose OmniMoGen, a unified framework that enables versatile motion generation through interleaved text-motion instructions. Built upon a concise RVQ-VAE and transformer architecture, OmniMoGen supports end-to-end instruction-driven motion generation. We construct X2Mo, a large-scale dataset of over 137K interleaved text-motion instructions, and introduce AnyContext, a benchmark for evaluating interleaved motion generation. Experiments show that OmniMoGen achieves state-of-the-art performance on text-to-motion, motion editing, and AnyContext, exhibiting emerging capabilities such as compositional editing, self-reflective generation, and knowledge-informed generation. These results mark a step toward the next intelligent motion generation. Project Page: https://OmniMoGen.github.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)は単一のフレームワーク内で多様な言語タスクを統一しているが、人間の動作生成においてそのような統一は未解明のままである。
既存の方法は孤立したタスクに限られており、自由形および全目的生成の柔軟性が制限されている。
そこで本研究では,テキスト・モーション・インストラクションによる多目的な動作生成を実現する統合フレームワークであるOmniMoGenを提案する。
簡潔なRVQ-VAEとトランスフォーマーアーキテクチャを基盤として、OmniMoGenはエンドツーエンドの命令駆動モーション生成をサポートする。
我々は、137K以上のインターリーブされたテキストモーション命令からなる大規模データセットであるX2Moを構築し、インターリーブされたモーション生成を評価するためのベンチマークであるAnyContextを紹介した。
実験の結果、OmniMoGenはテキスト・トゥ・モーション、モーション・編集、AnyContextで最先端のパフォーマンスを達成し、作曲編集、自己回帰生成、知識情報生成といった新たな能力を発揮することがわかった。
これらの結果は、次のインテリジェントなモーション生成に向けた一歩となる。
Project Page: https://OmniMoGen.github.io/.com
関連論文リスト
- IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation [54.36300724708094]
評価と改善のタスクは、理解と生成の間の双方向の知識フローを可能にするために重要なブリッジとして機能する。
動作生成、評価、改善をシームレスにインターリーブし、生成性能を向上させる最初のモデルであるIRG-MotionLLMを紹介する。
論文 参考訳(メタデータ) (2025-12-11T15:16:06Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks [30.333659816277823]
動作とテキストの限界,条件,共同分布を同時に学習することで,多様なタスクを処理できる統合マルチモーダルモデルであるtextbfMoTe を提示する。
MoTeは3つのコンポーネントで構成されている: Motion-Decoder (MED)、Text-Decoder (TED)、Moti-on-Text Diffusion Model (MTDM)。
論文 参考訳(メタデータ) (2024-11-29T15:48:24Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。