論文の概要: Being-M0.5: A Real-Time Controllable Vision-Language-Motion Model
- arxiv url: http://arxiv.org/abs/2508.07863v1
- Date: Mon, 11 Aug 2025 11:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.063467
- Title: Being-M0.5: A Real-Time Controllable Vision-Language-Motion Model
- Title(参考訳): Be-M0.5:リアルタイム制御可能なビジョンランゲージ移動モデル
- Authors: Bin Cao, Sipeng Zheng, Ye Wang, Lujie Xia, Qianshan Wei, Qin Jin, Jing Liu, Zongqing Lu,
- Abstract要約: being-M0.5は、複数のモーション生成タスクのパフォーマンスを実現する、初めてのリアルタイムで制御可能な視覚言語-モーションモデルである。
私たちのアプローチは、これまでで最大かつ最も包括的な人間のモーションデータセットであるHuMo100Mをベースにしています。
動作トークン化のための新しい部分認識残差量子化手法を導入し、生成中の個々の身体部分の精密かつきめ細かい制御を可能にする。
- 参考スコア(独自算出の注目度): 67.8026841949812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion generation has emerged as a critical technology with transformative potential for real-world applications. However, existing vision-language-motion models (VLMMs) face significant limitations that hinder their practical deployment. We identify controllability as a main bottleneck, manifesting in five key aspects: inadequate response to diverse human commands, limited pose initialization capabilities, poor performance on long-term sequences, insufficient handling of unseen scenarios, and lack of fine-grained control over individual body parts. To overcome these limitations, we present Being-M0.5, the first real-time, controllable VLMM that achieves state-of-the-art performance across multiple motion generation tasks. Our approach is built upon HuMo100M, the largest and most comprehensive human motion dataset to date, comprising over 5 million self-collected motion sequences, 100 million multi-task instructional instances, and detailed part-level annotations that address a critical gap in existing datasets. We introduce a novel part-aware residual quantization technique for motion tokenization that enables precise, granular control over individual body parts during generation. Extensive experimental validation demonstrates Being-M0.5's superior performance across diverse motion benchmarks, while comprehensive efficiency analysis confirms its real-time capabilities. Our contributions include design insights and detailed computational analysis to guide future development of practical motion generators. We believe that HuMo100M and Being-M0.5 represent significant advances that will accelerate the adoption of motion generation technologies in real-world applications. The project page is available at https://beingbeyond.github.io/Being-M0.5.
- Abstract(参考訳): 人間のモーション生成は、現実世界の応用に変革をもたらす重要な技術として登場した。
しかしながら、既存の視覚言語移動モデル(VLMM)は、実際の展開を妨げる重大な制限に直面している。
コントロール可能性の主なボトルネックは,多種多様なコマンドに対する不適切な応答,限定されたポーズの初期化能力,長期的シーケンスにおけるパフォーマンスの低下,目に見えないシナリオの扱いの不十分,個々の部分に対するきめ細かい制御の欠如,の5点である。
このような制約を克服するため,複数の動作生成タスクにまたがる最先端性能を実現する,初めてのリアルタイム制御可能なVLMMであるBeing-M0.5を提案する。
私たちのアプローチは、これまでで最大かつ最も包括的な人間のモーションデータセットであるHuMo100Mに基づいており、500万以上の自己コンパイルされたモーションシーケンス、1億のマルチタスクのインストラクションインスタンス、既存のデータセットの重大なギャップに対処する詳細な部分レベルのアノテーションで構成されています。
動作トークン化のための新しい部分認識残差量子化手法を導入し、生成中の個々の身体部分の精密かつきめ細かい制御を可能にする。
広範囲な実験的検証により、Beat-M0.5は様々なモーションベンチマークで優れた性能を示し、包括的な効率解析によりリアルタイムの能力が確認されている。
我々の貢献には、実用的なモーションジェネレータの今後の開発を導くための設計の洞察と詳細な計算分析が含まれる。
我々は,HuMo100MとBeat-M0.5は,現実のアプリケーションにおけるモーションジェネレーション技術の採用を加速する重要な進歩であると考えている。
プロジェクトのページはhttps://beingbeyond.github.io/Being-M0.5.comで公開されている。
関連論文リスト
- Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data [26.595803661584032]
我々は、ゼロショットの一般化能力を達成するために、テキスト・トゥ・モーションを新しい時代へと押し込む。
これまでに2000時間以上、200万以上の高品質なモーションシーケンスを備えた、人間のモーションデータセットとして最大であるMotionMillionを紹介した。
我々は、ゼロショットモーション生成を評価するための最も包括的なベンチマークであるMotionMillion-Evalを提案する。
論文 参考訳(メタデータ) (2025-07-09T17:52:04Z) - PhysiInter: Integrating Physical Mapping for High-Fidelity Human Interaction Generation [35.563978243352764]
人間のインタラクション生成パイプライン全体に統合された物理マッピングを導入する。
具体的には、物理に基づくシミュレーション環境での運動模倣は、ターゲットの動きを物理的に有効な空間に投影するために使用される。
実験の結果,人間の運動の質は3%~89%向上した。
論文 参考訳(メタデータ) (2025-06-09T06:04:49Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics [11.901933884058021]
本稿では,LAMBDA ベンチマーク-Long-Horizon Actions for Mobile-Manipulation Benchmarking of Directed Activityを紹介する。
私たちのベンチマークには、シミュレーションと実世界の設定において、現実性と多様性を提供する、571人の人間によるデモが含まれています。
予備訓練を受けた場合でも,学習方法は成功率を低く抑えるが,ニューロシンボリックな手法では性能が著しく向上し,データ量も少なくなる。
論文 参考訳(メタデータ) (2024-11-28T19:31:50Z) - IMUDiffusion: A Diffusion Model for Multivariate Time Series Synthetisation for Inertial Motion Capturing Systems [0.0]
本稿では,時系列生成に特化して設計された確率的拡散モデルIMUDiffusionを提案する。
提案手法は,人間の活動のダイナミクスを正確に捉えた高品質な時系列列の生成を可能にする。
一部のケースでは、マクロF1スコアを約30%改善することができる。
論文 参考訳(メタデータ) (2024-11-05T09:53:52Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。