論文の概要: Kimi-VL Technical Report
- arxiv url: http://arxiv.org/abs/2504.07491v1
- Date: Thu, 10 Apr 2025 06:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:53.080017
- Title: Kimi-VL Technical Report
- Title(参考訳): Kimi-VL 技術報告
- Authors: Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen,
- Abstract要約: Kimi-VLは視覚言語モデル(VLM)であり、高度なマルチモーダル推論、長いコンテキスト理解、強力なエージェント能力を提供する。
汎用 VLM として、Kimi-VL はマルチターンエージェントタスク(OSWorld など)に優れ、旗艦モデルと一致する。
Kimi-VLをベースとして、Kim-VL-Thinkingという先進的なロングシンキングモデルを導入する。
- 参考スコア(独自算出の注目度): 88.1116083022143
- License:
- Abstract: We present Kimi-VL, an efficient open-source Mixture-of-Experts (MoE) vision-language model (VLM) that offers advanced multimodal reasoning, long-context understanding, and strong agent capabilities - all while activating only 2.8B parameters in its language decoder (Kimi-VL-A3B). Kimi-VL demonstrates strong performance across challenging domains: as a general-purpose VLM, Kimi-VL excels in multi-turn agent tasks (e.g., OSWorld), matching flagship models. Furthermore, it exhibits remarkable capabilities across diverse challenging vision language tasks, including college-level image and video comprehension, OCR, mathematical reasoning, and multi-image understanding. In comparative evaluations, it effectively competes with cutting-edge efficient VLMs such as GPT-4o-mini, Qwen2.5-VL-7B, and Gemma-3-12B-IT, while surpassing GPT-4o in several key domains. Kimi-VL also advances in processing long contexts and perceiving clearly. With a 128K extended context window, Kimi-VL can process diverse long inputs, achieving impressive scores of 64.5 on LongVideoBench and 35.1 on MMLongBench-Doc. Its native-resolution vision encoder, MoonViT, further allows it to see and understand ultra-high-resolution visual inputs, achieving 83.2 on InfoVQA and 34.5 on ScreenSpot-Pro, while maintaining lower computational cost for common tasks. Building upon Kimi-VL, we introduce an advanced long-thinking variant: Kimi-VL-Thinking. Developed through long chain-of-thought (CoT) supervised fine-tuning (SFT) and reinforcement learning (RL), this model exhibits strong long-horizon reasoning capabilities. It achieves scores of 61.7 on MMMU, 36.8 on MathVision, and 71.3 on MathVista while maintaining the compact 2.8B activated LLM parameters, setting a new standard for efficient multimodal thinking models. Code and models are publicly accessible at https://github.com/MoonshotAI/Kimi-VL.
- Abstract(参考訳): 我々は,高度なマルチモーダル推論,長期コンテキスト理解,強力なエージェント機能を提供する,効率的なオープンソースのMixture-of-Experts(MoE)ビジョン言語モデル(VLM)であるKim-VLについて述べる。
Kimi-VLは、汎用的なVLMとして、マルチターンエージェントタスク(OSWorldなど)において、フラグシップモデルとの整合性に優れています。
さらに、大学レベルの画像やビデオの理解、OCR、数学的推論、マルチイメージ理解など、様々な難解な視覚言語タスクにまたがる顕著な能力を示す。
比較評価では、GPT-4o-mini、Qwen2.5-VL-7B、Gemma-3-12B-ITといった最先端の効率的なVLMと競合するが、いくつかのキードメインではGPT-4oを上回っている。
Kimi-VLは長いコンテキストを処理し、明確に知覚する。
128Kの拡張コンテキストウィンドウにより、Kimi-VLは様々な長い入力を処理でき、LongVideoBenchでは64.5、MMLongBench-Docでは35.1のスコアを達成している。
ネイティブ解像度のビジョンエンコーダであるMoonViTでは、超高解像度の視覚入力を見ることができるようになり、InfoVQAでは83.2、ScreenSpot-Proでは34.5を達成できる。
Kimi-VLをベースとして、Kim-VL-Thinkingという先進的なロングシンキングモデルを導入する。
長いチェーン・オブ・シークレット(CoT)で制御された微調整(SFT)と強化学習(RL)によって開発されたこのモデルは、強い長距離推論能力を示す。
MMMUでは61.7点、MathVisionでは36.8点、MathVistaでは71.3点、コンパクトな2.8B活性化LDMパラメータは維持され、効率的なマルチモーダル思考モデルのための新しい標準となっている。
コードとモデルはhttps://github.com/MoonshotAI/Kimi-VL.comで公開されている。
関連論文リスト
- CogVLM2: Visual Language Models for Image and Video Understanding [69.361109860391]
画像と映像の理解のための新しいビジュアル言語モデルであるCagVLM2ファミリを提案する。
イメージ理解モデルとして、CogVLM2は、トレーニング前とトレーニング後の両方でトレーニングレシピを改善したビジュアルエキスパートアーキテクチャを継承する。
ビデオ理解モデルとして、CogVLM2-Videoはマルチフレーム入力とタイムスタンプを統合し、時間的グラウンドの自動構築を提案する。
論文 参考訳(メタデータ) (2024-08-29T12:59:12Z) - MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。
MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文 参考訳(メタデータ) (2024-08-01T17:59:54Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。