論文の概要: Xiaomi MiMo-VL-Miloco Technical Report
- arxiv url: http://arxiv.org/abs/2512.17436v2
- Date: Mon, 22 Dec 2025 13:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 14:49:56.330623
- Title: Xiaomi MiMo-VL-Miloco Technical Report
- Title(参考訳): Xiaomi MiMo-VL-Miloco技術レポート
- Authors: Jiaze Li, Jingyang Chen, Yuxun Qu, Shijie Xu, Zhenru Lin, Junyou Zhu, Boshen Xu, Wenhui Tan, Pei Fu, Jianzhong Ju, Zhenbo Luo, Jian Luan,
- Abstract要約: 我々はMiMo-VL-Miloco-7Bとその量子化変種MiMo-VL-Miloco-7B-GGUFをオープンソース化した。
MiMo-VL-7Bのバックボーン上に構築されたMiMo-VL-Miloco-7Bは、スマートホーム環境に特化している。
- 参考スコア(独自算出の注目度): 17.03705921238102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We open-source MiMo-VL-Miloco-7B and its quantized variant MiMo-VL-Miloco-7B-GGUF, a pair of home-centric vision-language models that achieve strong performance on both home-scenario understanding and general multimodal reasoning. Built on the MiMo-VL-7B backbone, MiMo-VL-Miloco-7B is specialized for smart-home environments, attaining leading F1 scores on gesture recognition and common home-scenario understanding, while also delivering consistent gains across video benchmarks such as Video-MME, Video-MMMU, and Charades-STA, as well as language understanding benchmarks including MMMU-Pro and MMLU-Pro. In our experiments, MiMo-VL-Miloco-7B outperforms strong closed-source and open-source baselines on home-scenario understanding and several multimodal reasoning benchmarks. To balance specialization and generality, we design a two-stage training pipeline that combines supervised fine-tuning with reinforcement learning based on Group Relative Policy Optimization, leveraging efficient multi-domain data. We further incorporate chain-of-thought supervision and token-budget-aware reasoning, enabling the model to learn knowledge in a data-efficient manner while also performing reasoning efficiently. Our analysis shows that targeted home-scenario training not only enhances activity and gesture understanding, but also improves text-only reasoning with only modest trade-offs on document-centric tasks. Model checkpoints, quantized GGUF weights, and our home-scenario evaluation toolkit are publicly available at https://github.com/XiaoMi/xiaomi-mimo-vl-miloco to support research and deployment in real-world smart-home applications.
- Abstract(参考訳): MiMo-VL-Miloco-7Bとその量子化変種MiMo-VL-Miloco-7B-GGUFをオープンソースとして公開した。
MiMo-VL-7Bのバックボーン上に構築されたMiMo-VL-Miloco-7Bは、ジェスチャー認識と一般的なホームシナリオ理解でF1スコアを獲得するとともに、ビデオMME、ビデオMMMU、シャラデスSTAなどのビデオベンチマーク、MMMU-Pro、MMLU-Proなどの言語理解ベンチマークで一貫したゲインを提供する。
我々の実験では、MiMo-VL-Miloco-7Bは、家庭シナリオ理解と複数のマルチモーダル推論ベンチマークに基づいて、強力なクローズドソースとオープンソースベースラインを上回ります。
特殊化と汎用性のバランスをとるため,教師付き微調整とグループ相対ポリシー最適化に基づく強化学習を組み合わせた2段階学習パイプラインを設計し,効率的なマルチドメインデータを活用する。
さらに、チェーン・オブ・シンセサイザーとトークン・バッジ・アウェア・推論を導入し、モデルがデータ効率のよい方法で知識を学習し、推論を効率的に行なえるようにした。
分析の結果,ホーム・セサリオ・トレーニングは活動とジェスチャーの理解を促進させるだけでなく,文書中心のタスクに対してわずかにトレードオフを課すだけでテキストのみの推論を改善することがわかった。
モデルチェックポイント,量子化GGUF重み,およびホームセサリオ評価ツールキットがhttps://github.com/XiaoMi/xiaomi-mimo-vl-milocoで公開されている。
関連論文リスト
- MiMo-Embodied: X-Embodied Foundation Model Technical Report [53.335119478104644]
私たちはMiMo-Embodiedをオープンソースとして公開しました。
MiMo-Embodiedはタスクプランニング、アフォーマンス予測、空間理解において17のAIベンチマークにまたがる新たな記録を設定している。
これらのタスク全体で、MiMo-Embodiedは既存のオープンソース、クローズドソース、および特別なベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-11-20T16:34:55Z) - MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - MiMo-VL Technical Report [73.47820531501678]
我々は、2つの強力なビジョン言語モデルであるMiMo-VL-7B-SFTとMiMo-VL-7B-RLをオープンソース化した。
MiMo-VL-7B-RLは40タスク中35タスクでQwen2.5-VL-7Bを上回っ、OlympiadBenchでは59.4得点を記録した。
GUIグラウンディングアプリケーションでは、OSWorld-G上で56.1の新しい標準を設定する。
論文 参考訳(メタデータ) (2025-06-04T04:32:54Z) - SmartBench: Is Your LLM Truly a Good Chinese Smartphone Assistant? [34.225988628142225]
中国のモバイル環境でのデバイス上でのLCMの性能を評価するために設計された最初のベンチマークであるSmartBenchを紹介する。
我々は,日常的なモバイルインタラクションを反映した50対から200対の質問応答ペアからなる高品質なデータセットを構築した。
我々の貢献は、中国におけるデバイス上でのLCMを評価するための標準化されたフレームワークを提供し、さらなる開発と最適化を促進する。
論文 参考訳(メタデータ) (2025-03-08T03:02:21Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。