論文の概要: Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution
- arxiv url: http://arxiv.org/abs/2602.12684v1
- Date: Fri, 13 Feb 2026 07:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.880687
- Title: Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution
- Title(参考訳): Xiaomi-Robotics-0:リアルタイム実行によるオープンソースビジョンランゲージ・アクションモデル
- Authors: Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou,
- Abstract要約: 我々は、高速かつスムーズなリアルタイム実行のために最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。
Xiaomi-Robotics-0は、大規模なクロス・エボディメント・ロボット軌道と視覚言語データに事前訓練された。
我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。
- 参考スコア(独自算出の注目度): 32.93468341343403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io
- Abstract(参考訳): 本稿では、高速かつスムーズなリアルタイム実行に最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。
私たちの方法の鍵は、慎重に設計されたトレーニングレシピとデプロイメント戦略にあります。
Xiaomi-Robotics-0は、大規模なクロスボデーメントロボット軌道と視覚言語データに基づいて、初めて事前訓練された。
本稿では,実ロボットロールアウト時の推論遅延に対処するため,非同期実行のためのVLAモデルをトレーニングするためのいくつかの手法を提案する。
デプロイメント中、継続的に予測されるアクションチャンクのタイムステップを慎重に調整し、継続的かつシームレスなリアルタイムロールアウトを保証する。
我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。
以上の結果から,本手法は全てのシミュレーションベンチマークにおいて最先端性能を実現する。
さらにXiaomi-Robotics-0は、コンシューマグレードのGPUを使用して、実際のロボット上で高速かつスムーズに展開でき、両方のロボットタスクで高い成功率とスループットを達成することができる。
将来の研究を促進するため、コードとモデルチェックポイントはhttps://xiaomi-robotics-0.github.ioでオープンソース化されている。
関連論文リスト
- Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons [69.87766750714945]
汎用ロボット報酬モデルは通常、専門家によるデモンストレーションから絶対的なタスク進捗を予測するために訓練される。
本稿では、軌道内進行監視と軌道間優先監視を組み合わせたスケーラブルな報酬モデリングフレームワークRobometerを紹介する。
ロビオメーターは、専門家データに報酬等級を固定するフレームレベルのプログレス・ロスと、グローバルな順序制約を課す軌跡比較優先損失という2つの目的で訓練されている。
論文 参考訳(メタデータ) (2026-03-02T17:38:58Z) - World Action Models are Zero-shot Policies [111.91938055103633]
本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。
ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。
ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
論文 参考訳(メタデータ) (2026-02-17T15:04:02Z) - MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - ORV: 4D Occupancy-centric Robot Video Generation [33.360345403049685]
遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。
ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。
ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
論文 参考訳(メタデータ) (2025-06-03T17:00:32Z) - Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics [55.05920313034645]
本稿では,ロボット制御に特化して具体的推論を強化するため,強化学習を活用した新しいフレームワークであるRobot-R1を紹介する。
DeepSeek-R1学習アプローチにインスパイアされたRobot-R1は、推論に基づく応答をサンプリングし、より正確な予測につながるものを強化する。
実験の結果,ロボットR1で訓練したモデルは,具体的推論タスクにおいて,SFT法よりも優れていた。
論文 参考訳(メタデータ) (2025-05-29T16:41:12Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation [39.44358155600282]
本稿では,ロボット推論とアクション機能の両方を提供する,エンドツーエンドのロボットVLAモデルであるRoboMambaを紹介する。
具体的には、視覚エンコーダをMambaと統合し、コトレーニングによる言語埋め込みと視覚トークンを整合させる。
一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
論文 参考訳(メタデータ) (2024-06-06T17:59:47Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。