論文の概要: GLM-4.1V-Thinking and GLM-4.5V: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.01006v3
- Date: Wed, 13 Aug 2025 15:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.668258
- Title: GLM-4.1V-Thinking and GLM-4.5V: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
- Title(参考訳): GLM-4.1VシンキングとGLM-4.5V:スケーラブル強化学習によるマルチモーダル推論に向けて
- Authors: GLM-V Team, :, Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Bin Chen, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiale Zhu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Leyi Pan, Mingdao Liu, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Wenkai Li, Wei Jia, Xiao Liu, Xiaohan Zhang, Xin Lyu, Xuancheng Huang, Yanling Wang, Yadong Xue, Yanfeng Wang, Yanzi Wang, Yifan An, Yifan Du, Yiming Shi, Yiheng Huang, Yilin Niu, Yuan Wang, Yuanchang Yue, Yuchen Li, Yutao Zhang, Yuting Wang, Yu Wang, Yuxuan Zhang, Zhanxiao Du, Zhenyu Hou, Zhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang,
- Abstract要約: 視覚言語モデル(VLM)のファミリーであるGLM-4.1VシンキングとGLM-4.5Vを提案する。
GLM-4.5Vは、ほぼ全てのタスクにおいて、同じ大きさのオープンソースモデル間で最先端のパフォーマンスを達成する。
より小型のGLM-4.1V-9Bシンキングは29のベンチマークでより大型のQwen2.5-VL-72Bよりも競争力に優れていた。
- 参考スコア(独自算出の注目度): 117.3814584338105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GLM-4.1V-Thinking and GLM-4.5V, a family of vision-language models (VLMs) designed to advance general-purpose multimodal understanding and reasoning. In this report, we share our key findings in the development of the reasoning-centric training framework. We first develop a capable vision foundation model with significant potential through large-scale pre-training, which arguably sets the upper bound for the final performance. We then propose Reinforcement Learning with Curriculum Sampling (RLCS) to unlock the full potential of the model, leading to comprehensive capability enhancement across a diverse range of tasks, including STEM problem solving, video understanding, content recognition, coding, grounding, GUI-based agents, and long document interpretation. In a comprehensive evaluation across 42 public benchmarks, GLM-4.5V achieves state-of-the-art performance on nearly all tasks among open-source models of similar size, and demonstrates competitive or even superior results compared to closed-source models such as Gemini-2.5-Flash on challenging tasks including Coding and GUI Agents. Meanwhile, the smaller GLM-4.1V-9B-Thinking remains highly competitive-achieving superior results to the much larger Qwen2.5-VL-72B on 29 benchmarks. We open-source both GLM-4.1V-9B-Thinking and GLM-4.5V. Code, models and more information are released at https://github.com/zai-org/GLM-V.
- Abstract(参考訳): GLM-4.1V-Thinking と GLM-4.5V は、汎用マルチモーダル理解と推論を促進するために設計されたビジョン言語モデル(VLM)のファミリーである。
本報告では、推論中心のトレーニングフレームワークの開発における重要な成果について紹介する。
まず,大規模事前学習によって有意なポテンシャルを持つ有能な視覚基盤モデルを構築し,最終性能の上限を確実に設定する。
次に,カリキュラムサンプリングによる強化学習(Reinforcement Learning with Curriculum Smpling, RLCS)を提案し,STEM問題解決,ビデオ理解,コンテンツ認識,コーディング,グラウンドニング,GUIベースのエージェント,長期文書解釈など,さまざまなタスクに包括的能力向上をもたらす。
42の公開ベンチマークにわたる総合的な評価では、GLM-4.5Vは、ほぼすべてのタスクにおいて、同様のサイズのオープンソースモデルで最先端のパフォーマンスを達成し、コーディングやGUIエージェントといった課題に対するGemini-2.5-Flashのようなクローズドソースモデルと比較して、競争力や優位性を示す。
一方、より小型のGLM-4.1V-9Bシンキングは29のベンチマークでより大型のQwen2.5-VL-72Bよりも競争力に優れていた。
GLM-4.1V-9B-ThinkingとGLM-4.5Vをオープンソースとして公開する。
コード、モデル、その他の情報はhttps://github.com/zai-org/GLM-V.comで公開されている。
関連論文リスト
- MiMo-VL Technical Report [73.47820531501678]
我々は、2つの強力なビジョン言語モデルであるMiMo-VL-7B-SFTとMiMo-VL-7B-RLをオープンソース化した。
MiMo-VL-7B-RLは40タスク中35タスクでQwen2.5-VL-7Bを上回っ、OlympiadBenchでは59.4得点を記録した。
GUIグラウンディングアプリケーションでは、OSWorld-G上で56.1の新しい標準を設定する。
論文 参考訳(メタデータ) (2025-06-04T04:32:54Z) - IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs [36.76252153495239]
IV-Benchは、Image-Grounded Video Perception and Reasoningを評価するための最初の包括的なベンチマークである。
IV-Benchは、13のタスクにわたる2,585の微妙な注釈付き画像テキストクエリと組み合わせた967のビデオで構成されている。
論文 参考訳(メタデータ) (2025-04-21T19:53:44Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。
LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。
LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T10:21:57Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。
提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文 参考訳(メタデータ) (2023-05-26T23:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。