論文の概要: Qwen3-VL Technical Report
- arxiv url: http://arxiv.org/abs/2511.21631v1
- Date: Wed, 26 Nov 2025 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.234558
- Title: Qwen3-VL Technical Report
- Title(参考訳): Qwen3-VL技術報告
- Authors: Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu,
- Abstract要約: Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。
最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。
Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
- 参考スコア(独自算出の注目度): 153.3964813640593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.
- Abstract(参考訳): 我々はQwenシリーズで最も有能な視覚言語モデルであるQwen3-VLを導入し、幅広いマルチモーダルベンチマークにおいて優れた性能を実現した。
ネイティブに最大256Kトークンのインターリーブされたコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。
2B/4B/8B/32B) と30B-A3B/235B-A22B (30B-A3B/235B-A22B) の混合式を含むモデルファミリーである。
Qwen3-VLは3つのコア柱を提供する。
(i)極端に強い純文理解であり、いくつかの場合において、同等のテキストのみのバックボーンを超える。
(二)テキストとインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを内蔵した頑健な長文理解により、長い文書やビデオの忠実な保持、検索、相互参照が可能となる。
3)シングルイメージ,マルチイメージ,ビデオタスクにまたがる高度なマルチモーダル推論を行い,MMMUやビジュアルマスベンチマーク(MathVista,MathVisionなど)などの総合的な評価において,先進的なパフォーマンスを示す。
アーキテクチャ面では、3つの重要なアップグレードを紹介します。
一 画像及び映像の空間的時間的モデリングを強化するための拡張型インターリーブ型MRoPE
(ii)多レベルVT機能を効果的に活用して視覚言語アライメントを強化するDeepStack統合。
3)ビデオのテキストベースのタイムアライメントは,T-RoPEからテキストタイムスタンプアライメントへと進化し,より正確な時間的グラウンド化を実現している。
同等のトークン予算とレイテンシの制約の下で、Qwen3-VLは、高密度およびMixture-of-Experts(MoE)アーキテクチャの両方で優れたパフォーマンスを達成する。
我々は,Qwen3-VLが実世界のワークフローにおけるイメージグラウンド推論,エージェント決定,マルチモーダルコードインテリジェンスの基礎エンジンとして機能することを期待している。
関連論文リスト
- Vidi2: Large Multimodal Models for Video Understanding and Creation [39.82972197371385]
微粒な時間的接地(STG)によるVdi2ビデオ理解とビデオ質問応答能力の向上(ビデオQA)
テキストクエリが与えられた場合、Vidi2は対応するタイムスタンプだけでなく、出力時間範囲内の対象オブジェクトのバウンディングボックスも識別できる。
このエンドツーエンドの時間的グラウンド機能は、複雑な編集シナリオにおける潜在的なアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-11-24T07:58:29Z) - IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation [23.61167100602915]
IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
論文 参考訳(メタデータ) (2025-10-13T03:19:45Z) - TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。
VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。
2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-11T05:51:44Z) - Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting [26.4608782425897]
Time-VLMは、時間的、視覚的、テキスト的なモダリティを橋渡しして予測を強化する新しいフレームワークである。
本フレームワークは,(1)記憶バンク相互作用を通じて時間的特徴を抽出する検索型学習者,(2)時系列を情報的画像としてエンコードするビジョン型学習者,(3)文脈的テキスト記述を生成するテキスト型学習者,の3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-02-06T05:59:45Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。