論文の概要: GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents
- arxiv url: http://arxiv.org/abs/2604.26752v1
- Date: Wed, 29 Apr 2026 14:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.445997
- Title: GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents
- Title(参考訳): GLM-5V-Turbo:マルチモーダルエージェントのネイティブ基盤モデルを目指して
- Authors: GLM-V Team, :, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue, Yu Wang, Yanling Wang, Yan Wang, Xijun Liu, Wenmeng Yu, Weihan Wang, Wei Li, Shuaiqi Duan, Sheng Yang, Ruiliang Lv, Mingdao Liu, Lihang Pan, Ke Ning, Junhui Ji, Jinjiang Wang, Jing Chen, Jiazheng Xu, Jiale Zhu, Jiale Cheng, Ji Qi, Guobing Gan, Guo Wang, Cong Yao, Zijun Dou, Zihao Zhou, Zihan Wang, Zhiqi Ge, Zhijie Li, Zhenyu Hou, Zhao Xue, Zehui Wang, Zehai He, Yusen Liu, Yukuo Cen, Yuchen Li, Yuan Wang, Yijian Lu, Yanzi Wang, Yadong Xue, Xinyu Zhang, Xinyu Liu, Wenkai Li, Tianyu Tong, Tianshu Zhang, Shengdong Yan, Qinkai Zheng, Mingde Xu, Licheng Bao, Jiaxing Xu, Jiaxin Fan, Jiawen Qian, Jiali Chen, Jiahui Lin, Haozhi Zheng, Haoran Wang, Haochen Li, Fan Yang, Dan Zhang, Chuangxin Zhao, Chengcheng Wu, Boyan Shi, Bowei Jia, Baoxu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang,
- Abstract要約: GLM-5V-Turboは,マルチモーダルエージェントのネイティブ基盤モデルに向けたステップである。
本稿では、モデル設計、マルチモーダルトレーニング、強化学習、ツールチェーン拡張、エージェントフレームワークとの統合など、GLM-5V-Turboの主な改善点について要約する。
- 参考スコア(独自算出の注目度): 124.91522179321457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GLM-5V-Turbo, a step toward native foundation models for multimodal agents. As foundation models are increasingly deployed in real environments, agentic capability depends not only on language reasoning, but also on the ability to perceive, interpret, and act over heterogeneous contexts such as images, videos, webpages, documents, GUIs. GLM-5V-Turbo is built around this objective: multimodal perception is integrated as a core component of reasoning, planning, tool use, and execution, rather than as an auxiliary interface to a language model. This report summarizes the main improvements behind GLM-5V-Turbo across model design, multimodal training, reinforcement learning, toolchain expansion, and integration with agent frameworks. These developments lead to strong performance in multimodal coding, visual tool use, and framework-based agentic tasks, while preserving competitive text-only coding capability. More importantly, our development process offers practical insights for building multimodal agents, highlighting the central role of multimodal perception, hierarchical optimization, and reliable end-to-end verification.
- Abstract(参考訳): GLM-5V-Turboは,マルチモーダルエージェントのネイティブ基盤モデルに向けたステップである。
基礎モデルが現実の環境でますます展開されるにつれて、エージェント機能は言語推論だけでなく、画像、ビデオ、Webページ、ドキュメント、GUIといった異質なコンテキストに対して知覚、解釈、行動する能力にも依存する。
GLM-5V-Turboは、言語モデルの補助インターフェイスとしてではなく、推論、計画、ツールの使用、実行のコアコンポーネントとして統合されている。
本稿では、モデル設計、マルチモーダルトレーニング、強化学習、ツールチェーン拡張、エージェントフレームワークとの統合など、GLM-5V-Turboの主な改善点について要約する。
これらの開発は、競合するテキストのみのコーディング機能を保持しながら、マルチモーダルコーディング、ビジュアルツールの使用、フレームワークベースのエージェントタスクにおいて、強力なパフォーマンスをもたらす。
さらに、我々の開発プロセスは、マルチモーダルエージェントを構築するための実践的な洞察を提供し、マルチモーダル認識、階層最適化、信頼性のあるエンドツーエンド検証の中心的な役割を強調します。
関連論文リスト
- Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything [12.274140974616747]
MLLM(Multimodal large language model)は強力な能力を示すが、固定されたモダリティペアに限られる。
本稿では,既存の基盤モデルをマスタエージェントシステムで協調するエージェント-オムニフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T18:59:09Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。