論文の概要: MiMo-Embodied: X-Embodied Foundation Model Technical Report
- arxiv url: http://arxiv.org/abs/2511.16518v1
- Date: Thu, 20 Nov 2025 16:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.719542
- Title: MiMo-Embodied: X-Embodied Foundation Model Technical Report
- Title(参考訳): MiMo-Embodied: X-Embodied Foundation Model Technical Report
- Authors: Xiaoshuai Hao, Lei Zhou, Zhijian Huang, Zhiwen Hou, Yingbo Tang, Lingfeng Zhang, Guang Li, Zheng Lu, Shuhuai Ren, Xianhui Meng, Yuchen Zhang, Jing Wu, Jinghui Lu, Chenxu Dang, Jiayi Guan, Jianhua Wu, Zhiyi Hou, Hanbing Li, Shumeng Xia, Mingliang Zhou, Yinan Zheng, Zihao Yue, Shuhao Gu, Hao Tian, Yuannan Shen, Jianwei Cui, Wen Zhang, Shaoqing Xu, Bing Wang, Haiyang Sun, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Chaofan Zhang, Wenbo Ding, Kun Ma, Guang Chen, Rui Cai, Diyun Xiang, Heng Qu, Fuli Luo, Hangjun Ye, Long Chen,
- Abstract要約: 私たちはMiMo-Embodiedをオープンソースとして公開しました。
MiMo-Embodiedはタスクプランニング、アフォーマンス予測、空間理解において17のAIベンチマークにまたがる新たな記録を設定している。
これらのタスク全体で、MiMo-Embodiedは既存のオープンソース、クローズドソース、および特別なベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 53.335119478104644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We open-source MiMo-Embodied, the first cross-embodied foundation model to successfully integrate and achieve state-of-the-art performance in both Autonomous Driving and Embodied AI. MiMo-Embodied sets new records across 17 embodied AI benchmarks in Task Planning, Affordance Prediction and Spatial Understanding, while also excelling in 12 autonomous driving benchmarks across Environmental Perception, Status Prediction, and Driving Planning. Across these tasks, MiMo-Embodied significantly outperforms existing open-source, closed-source, and specialized baselines. Our results indicate that through multi-stage learning, curated data construction, and CoT/RL fine-tuning, these two domains exhibit strong positive transfer and mutually reinforce one another. We provide a detailed analysis of our model design and training methodologies to facilitate further research. Code and models are available at https://github.com/XiaomiMiMo/MiMo-Embodied.
- Abstract(参考訳): 私たちはMiMo-Embodiedをオープンソースとして公開しました。これは、Autonomous DrivingとEmbodied AIの両方で最先端のパフォーマンスをうまく統合し、達成するための、初めてのクロス・エボダイド基盤モデルです。
MiMo-Embodiedはタスクプランニング、Affordance Prediction、Spatial Understandingの17のAIベンチマークにまたがる新たな記録を設定し、環境認識、ステータス予測、運転計画の12の自律運転ベンチマークでも優れている。
これらのタスク全体で、MiMo-Embodiedは既存のオープンソース、クローズドソース、および特別なベースラインを著しく上回っている。
以上の結果から,多段階学習,キュレートデータ構築,CoT/RL微調整により,これら2つの領域は強い正の伝達を示し,相互に強化されていることが示唆された。
我々は、さらなる研究を促進するために、モデル設計およびトレーニング手法の詳細な分析を行う。
コードとモデルはhttps://github.com/XiaomiMiMo/MiMo-Embodied.comで公開されている。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Mosaic: Data-Free Knowledge Distillation via Mixture-of-Experts for Heterogeneous Distributed Environments [8.494154839146622]
Federated Learning(FL)は、クライアントがデータのプライバシを保持しながらモデルを協調的にトレーニングすることを可能にする、分散機械学習パラダイムである。
異種分散環境に適した新しいデータフリーな知識蒸留フレームワークであるMosaicを提案する。
Mosaicは、専門知識に基づいてクライアントモデルからMixture-of-Experts(MoE)を作成し、生成されたデータを使用してグローバルモデルに蒸留する。
論文 参考訳(メタデータ) (2025-05-26T08:52:49Z) - FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts [4.412721048192925]
我々は、データ不均一性に対処するための効率的パーソナライズされたFederated LearningフレームワークであるFedMoEを紹介する。
FedMoEは2つの微調整段階から構成されており、第1段階では、観測されたアクティベーションパターンに基づいて探索を行うことで問題を単純化する。
第2段階では、これらのサブモデルはさらなるトレーニングのためにクライアントに配布され、サーバ集約のために返される。
論文 参考訳(メタデータ) (2024-08-21T03:16:12Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Assemble Foundation Models for Automatic Code Summarization [9.53949558569201]
ニューラルネットワークに基づく自動コード要約のためのフレキシブルでロバストなアプローチを提案する。
CodeBERT や GPT-2 のような利用可能な基盤モデルを AdaMo という単一のモデルに組み立てる。
本稿では,知識伝達の観点から,連続事前学習と中間微調整という2つの適応型スキームを導入する。
論文 参考訳(メタデータ) (2022-01-13T21:38:33Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - An LSTM-Based Autonomous Driving Model Using Waymo Open Dataset [7.151393153761375]
本稿では,短期記憶モデル(LSTM)を用いた自律走行モデルの動作を模倣する手法を提案する。
実験結果から,本モデルは動作予測においていくつかのモデルより優れることがわかった。
論文 参考訳(メタデータ) (2020-02-14T05:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。