論文の概要: UMO: Unified In-Context Learning Unlocks Motion Foundation Model Priors
- arxiv url: http://arxiv.org/abs/2603.15975v1
- Date: Mon, 16 Mar 2026 22:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.024352
- Title: UMO: Unified In-Context Learning Unlocks Motion Foundation Model Priors
- Title(参考訳): UMO:モーションファウンデーションモデルに先行する統合インコンテキスト学習
- Authors: Xiaoyan Cong, Zekun Li, Zhiyang Dou, Hongyu Li, Omid Taheri, Chuan Guo, Abhay Mittal, Sizhe An, Taku Komura, Wojciech Matusik, Michael J. Black, Srinath Sridhar,
- Abstract要約: UMOは、様々な下流タスクを原子単位の操作の合成にキャストする、単純だが汎用的な統一的な定式化である。
具体的には、フレーム単位のインテントを特定するために3つの学習可能なフレームレベルのメタオペレーション埋め込みを導入し、事前訓練されたバックボーンにコンテキスト内キューを注入するために、軽量の時間融合を採用している。
UMOは幅広いベンチマークでタスク固有のベースラインとトレーニング不要ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 78.85130555487432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale foundation models (LFMs) have recently made impressive progress in text-to-motion generation by learning strong generative priors from massive 3D human motion datasets and paired text descriptions. However, how to effectively and efficiently leverage such single-purpose motion LFMs, i.e., text-to-motion synthesis, in more diverse cross-modal and in-context motion generation downstream tasks remains largely unclear. Prior work typically adapts pretrained generative priors to individual downstream tasks in a task-specific manner. In contrast, our goal is to unlock such priors to support a broad spectrum of downstream motion generation tasks within a single unified framework. To bridge this gap, we present UMO, a simple yet general unified formulation that casts diverse downstream tasks into compositions of atomic per-frame operations, enabling in-context adaptation to unlock the generative priors of pretrained DiT-based motion LFMs. Specifically, UMO introduces three learnable frame-level meta-operation embeddings to specify per-frame intent and employs lightweight temporal fusion to inject in-context cues into the pretrained backbone, with negligible runtime overhead compared to the base model. With this design, UMO finetunes the pretrained model, originally limited to text-to-motion generation, to support diverse previously unsupported tasks, including temporal inpainting, text-guided motion editing, text-serialized geometric constraints, and multi-identity reaction generation. Experiments demonstrate that UMO consistently outperforms task-specific and training-free baselines across a wide range of benchmarks, despite using a single unified model. Code and model will be publicly available. Project Page: https://oliver-cong02.github.io/UMO.github.io/
- Abstract(参考訳): 大規模ファウンデーションモデル(LFM)は最近、巨大な3Dモーションデータセットとペア化されたテキスト記述から強力な生成先を学習することで、テキスト・ツー・モーション生成を著しく進歩させた。
しかし、より多様なクロスモーダル・イン・コンテクスト・モーション生成タスクにおいて、このような単一目的動作 LFM 、すなわちテキスト・ツー・モーション合成を効果的に効果的に活用する方法はほとんど不明である。
以前の作業は、通常、訓練済みの生成前のタスクを、タスク固有の方法で個々の下流タスクに適応させる。
対照的に、我々のゴールは、単一の統合フレームワーク内で幅広いダウンストリームモーション生成タスクをサポートするために、そのような事前をアンロックすることである。
このギャップを埋めるために、UMOは、多種多様な下流タスクを原子単位の操作の合成にキャストし、事前訓練されたDiTベースの動き LFM の生成前をアンロックするためのコンテキスト内適応を可能にする、単純だが汎用的な統一的な定式化である。
具体的には、フレーム単位のインテントを特定するために3つの学習可能なフレームレベルのメタオペレーション埋め込みを導入し、ベースモデルと比較して無視可能なランタイムオーバーヘッドを伴って、コンテクスト内キューを予めトレーニングされたバックボーンに注入するために、軽量の時間融合を採用している。
この設計により、UMOは、当初テキスト・ツー・モーション生成に限られていた事前訓練されたモデルを微調整し、時間的インペイント、テキスト誘導モーション編集、テキストシリアライズド幾何制約、マルチアイデンティティ・リアクション生成などの様々なタスクをサポートする。
UMOは、単一の統一モデルを使用しても、幅広いベンチマークでタスク固有のベースラインとトレーニング不要ベースラインを一貫して上回ることを示した。
コードとモデルは公開されます。
Project Page: https://oliver-cong02.github.io/UMO.github.io/
関連論文リスト
- LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens [19.167250154665812]
LLaMoは、モダリティ固有のMixture-of-Transformersアーキテクチャを通じて、事前訓練された大規模言語モデルを拡張するフレームワークである。
人間の動きを因果連続潜伏空間にエンコードし、デコーダのみのバックボーンで次のトーケン予測パラダイムを維持する。
実験により,LLaMoは一般的な設定で高忠実なテキスト・ツー・モーション生成とモーション・トゥ・テキストキャプションを実現することが示された。
論文 参考訳(メタデータ) (2026-02-12T20:02:21Z) - FrankenMotion: Part-level Human Motion Generation and Composition [41.84042766842064]
原子的かつ時間的に認識可能な部分レベルのテキストアノテーションを用いた高品質なモーションデータセットを構築する。
我々のデータセットは、時間分解能で非同期かつ意味的に異なる部分の動きをキャプチャする。
本データセットに基づいて,FrankenMotionという拡散型部分認識モーション生成フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-15T23:50:07Z) - UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models [12.21686773633269]
広範なコーパスで訓練された大規模言語モデルは、単一の生成フレームワーク内で多様な言語タスクを統一することに成功した。
このようなモデリングには、モダリティやソースをまたいだタスク固有の事前トレーニングが必要です。
タスク固有の変更なしに様々な視覚タスクを処理するために,ビデオ拡散変換器を微調整するフレームワークであるUniVidを提案する。
論文 参考訳(メタデータ) (2025-09-26T01:43:40Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation [78.77004913030285]
M$3$GPTは、理解と生成のための先進的な$textbfM$ultimodal, $textbfM$ultitaskフレームワークである。
我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダルな条件信号に対して離散ベクトル量子化を用い、大きな言語モデルへのシームレスな統合を可能にした。
M$3$GPTは、様々な動作関連タスク間の接続とシナジーをモデル化することを学ぶ。
論文 参考訳(メタデータ) (2024-05-25T15:21:59Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。