論文の概要: MiMo-VL Technical Report
- arxiv url: http://arxiv.org/abs/2506.03569v1
- Date: Wed, 04 Jun 2025 04:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.154923
- Title: MiMo-VL Technical Report
- Title(参考訳): MiMo-VL技術報告
- Authors: Xiaomi LLM-Core Team, :, Zihao Yue, Zhenru Lin, Yifan Song, Weikun Wang, Shuhuai Ren, Shuhao Gu, Shicheng Li, Peidian Li, Liang Zhao, Lei Li, Kainan Bao, Hao Tian, Hailin Zhang, Gang Wang, Dawei Zhu, Cici, Chenhong He, Bowen Ye, Bowen Shen, Zihan Zhang, Zihan Jiang, Zhixian Zheng, Zhichao Song, Zhenbo Luo, Yue Yu, Yudong Wang, Yuanyuan Tian, Yu Tu, Yihan Yan, Yi Huang, Xu Wang, Xinzhe Xu, Xingchen Song, Xing Zhang, Xing Yong, Xin Zhang, Xiangwei Deng, Wenyu Yang, Wenhan Ma, Weiwei Lv, Weiji Zhuang, Wei Liu, Sirui Deng, Shuo Liu, Shimao Chen, Shihua Yu, Shaohui Liu, Shande Wang, Rui Ma, Qiantong Wang, Peng Wang, Nuo Chen, Menghang Zhu, Kangyang Zhou, Kang Zhou, Kai Fang, Jun Shi, Jinhao Dong, Jiebao Xiao, Jiaming Xu, Huaqiu Liu, Hongshen Xu, Heng Qu, Haochen Zhao, Hanglong Lv, Guoan Wang, Duo Zhang, Dong Zhang, Di Zhang, Chong Ma, Chang Liu, Can Cai, Bingquan Xia,
- Abstract要約: 我々は、2つの強力なビジョン言語モデルであるMiMo-VL-7B-SFTとMiMo-VL-7B-RLをオープンソース化した。
MiMo-VL-7B-RLは40タスク中35タスクでQwen2.5-VL-7Bを上回っ、OlympiadBenchでは59.4得点を記録した。
GUIグラウンディングアプリケーションでは、OSWorld-G上で56.1の新しい標準を設定する。
- 参考スコア(独自算出の注目度): 73.47820531501678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We open-source MiMo-VL-7B-SFT and MiMo-VL-7B-RL, two powerful vision-language models delivering state-of-the-art performance in both general visual understanding and multimodal reasoning. MiMo-VL-7B-RL outperforms Qwen2.5-VL-7B on 35 out of 40 evaluated tasks, and scores 59.4 on OlympiadBench, surpassing models with up to 78B parameters. For GUI grounding applications, it sets a new standard with 56.1 on OSWorld-G, even outperforming specialized models such as UI-TARS. Our training combines four-stage pre-training (2.4 trillion tokens) with Mixed On-policy Reinforcement Learning (MORL) integrating diverse reward signals. We identify the importance of incorporating high-quality reasoning data with long Chain-of-Thought into pre-training stages, and the benefits of mixed RL despite challenges in simultaneous multi-domain optimization. We also contribute a comprehensive evaluation suite covering 50+ tasks to promote reproducibility and advance the field. The model checkpoints and full evaluation suite are available at https://github.com/XiaomiMiMo/MiMo-VL.
- Abstract(参考訳): MiMo-VL-7B-SFTとMiMo-VL-7B-RLをオープンソースとして公開した。
MiMo-VL-7B-RLは40タスク中35タスクでQwen2.5-VL-7Bを上回っ、OlympiadBenchでは59.4得点、最大78Bパラメータのモデルを上回った。
GUIグラウンディングアプリケーションでは、OSWorld-G上で56.1の新しい標準が設定され、UI-TARSのような特殊なモデルよりも優れている。
トレーニングでは,4段階の事前トレーニング(2.4兆トークン)と,多様な報酬信号を統合するMORL(Mixed On-policy Reinforcement Learning)を組み合わせる。
複数ドメインの同時最適化の課題にも拘わらず,高品質な推論データと長時間のチェーン・オブ・サートを事前学習段階に組み込むことの重要性と混合RLの利点を明らかにした。
また,再現性を向上し,現場を前進させるために,50以上のタスクをカバーする総合的な評価スイートも提供した。
モデルチェックポイントと完全な評価スイートはhttps://github.com/XiaomiMiMo/MiMo-VLで公開されている。
関連論文リスト
- MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining [66.10635181116766]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。
MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。
最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-12T14:30:11Z) - SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。
我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。
ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z) - Kimi-VL Technical Report [88.78957513757784]
Kimi-VLは視覚言語モデル(VLM)であり、高度なマルチモーダル推論、長いコンテキスト理解、強力なエージェント能力を提供する。
汎用 VLM として、Kimi-VL はマルチターンエージェントタスク(OSWorld など)に優れ、旗艦モデルと一致する。
Kimi-VLをベースとして、Kim-VL-Thinkingという先進的なロングシンキングモデルを導入する。
論文 参考訳(メタデータ) (2025-04-10T06:48:26Z) - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。
LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。
LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T10:21:57Z) - MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting [0.6675160100853794]
我々は,高度に構成された高次マルチモーダル物理問題を含む新しいデータセットMM-PhyQAをキュレートした。
GPT-4を用いたゼロショット予測とLLaVA(LLaVAとLLaVA-1.5)を用いて,マルチモーダル入力からなる質問に対する回答を生成する。
テキスト入力のみからなるLLMの性能を評価するため,Mistral-7BおよびLLaMA2-7bモデルのベースおよび微調整版の性能試験を行った。
論文 参考訳(メタデータ) (2024-04-11T07:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。