論文の概要: Qwen2.5-VL Technical Report
- arxiv url: http://arxiv.org/abs/2502.13923v1
- Date: Wed, 19 Feb 2025 18:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:26.943380
- Title: Qwen2.5-VL Technical Report
- Title(参考訳): Qwen2.5-VL技術報告
- Authors: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin,
- Abstract要約: Qwen2.5-VLは、視覚認識の強化により、世界の理解と対話において大きな飛躍を遂げる。
請求書、フォーム、テーブルからの堅牢な構造化データ抽出と、チャート、ダイアグラム、レイアウトの詳細な分析を提供する。
Qwen2.5-VLは3つのサイズで利用可能で、エッジAIからハイパフォーマンスコンピューティングまで、さまざまなユースケースに対応している。
- 参考スコア(独自算出の注目度): 57.43576033343722
- License:
- Abstract: We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately. It provides robust structured data extraction from invoices, forms, and tables, as well as detailed analysis of charts, diagrams, and layouts. To handle complex inputs, Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding, enabling it to process images of varying sizes and videos of extended durations (up to hours) with second-level event localization. This allows the model to natively perceive spatial scales and temporal dynamics without relying on traditional normalization techniques. By training a native dynamic-resolution Vision Transformer (ViT) from scratch and incorporating Window Attention, we reduce computational overhead while maintaining native resolution. As a result, Qwen2.5-VL excels not only in static image and document understanding but also as an interactive visual agent capable of reasoning, tool usage, and task execution in real-world scenarios such as operating computers and mobile devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly excelling in document and diagram understanding. Additionally, Qwen2.5-VL maintains robust linguistic performance, preserving the core language competencies of the Qwen2.5 LLM.
- Abstract(参考訳): 本稿では,Qwenビジョン言語シリーズの最新フラッグシップモデルであるQwen2.5-VLを紹介する。
Qwen2.5-VLは、視覚認識の強化、正確なオブジェクトローカライゼーション、堅牢な文書解析、長いビデオ理解を通じて、世界に対する理解と対話において大きな前進を遂げる。
Qwen2.5-VLの特長は、バウンディングボックスやポイントを使ってオブジェクトを正確にローカライズできることである。
請求書、フォーム、テーブルからの堅牢な構造化データ抽出と、チャート、ダイアグラム、レイアウトの詳細な分析を提供する。
複雑な入力を処理するため、Qwen2.5-VLは動的解像度処理と絶対時間符号化を導入し、第2レベルのイベントローカライゼーションで、様々な大きさの画像を処理できる。
これにより、モデルは従来の正規化技術に頼ることなく、自然に空間スケールと時間ダイナミクスを知覚することができる。
ネイティブ・ダイナミック・レゾリューション・ビジョン・トランスフォーマー(ViT)をスクラッチからトレーニングし,ウインドウ・アテンションを取り入れることで,ネイティブ・レゾリューションを維持しながら計算オーバーヘッドを低減する。
その結果、Qwen2.5-VLは静的画像や文書理解だけでなく、コンピュータやモバイルデバイスのような現実のシナリオでの推論、ツールの使用、タスク実行が可能な対話型視覚エージェントとしても優れている。
Qwen2.5-VLは3つのサイズで利用可能で、エッジAIからハイパフォーマンスコンピューティングまで、さまざまなユースケースに対応している。
フラッグシップのQwen2.5-VL-72Bモデルは、GPT-4oやClaude 3.5 Sonnetのような最先端のモデルと一致している。
加えて、Qwen2.5-VLは堅牢な言語性能を維持し、Qwen2.5 LLMのコア言語能力を維持している。
関連論文リスト
- Qwen2.5 Technical Report [122.13958993185952]
Qwen2.5は多種多様なニーズに対応するように設計された大規模言語モデル(LLM)の包括的シリーズである。
以前のイテレーションと比較して、Qwen 2.5はトレーニング前とトレーニング後の両方で大幅に改善されている。
オープンウェイト製品には、ベースモデルと命令チューニングモデルが含まれており、量子化されたバージョンが利用可能である。
ホスト型ソリューションでは、現在プロプライエタリなモデルには、Qwen2.5-TurboとQwen2.5-Plusの2つの混合型(MoE)が含まれている。
論文 参考訳(メタデータ) (2024-12-19T17:56:09Z) - DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding [39.14141055325595]
We present DeepSeek-VL2, a Advanced series of large Mixture-of-Experts (MoE) Vision-Language Models。
ビジョンコンポーネントには、アスペクト比の異なる高解像度画像を処理するために設計された動的タイリングビジョン符号化戦略が組み込まれている。
言語コンポーネントについては、Multi-head Latent AttentionメカニズムでDeepSeekMoEモデルを活用します。
論文 参考訳(メタデータ) (2024-12-13T17:37:48Z) - Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities [11.53488611812612]
近年のVision-Language(VL)モデルの進歩は、エッジデバイスへの展開への関心を喚起している。
We introduced EdgeVL, a novel framework that seamlessly integrates dual-modality knowledge distillation and Quantization-aware contrastive learning。
私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。
論文 参考訳(メタデータ) (2024-03-07T21:34:40Z) - Qwen-VL: A Versatile Vision-Language Model for Understanding,
Localization, Text Reading, and Beyond [72.41822115096741]
大規模視覚言語モデル(LVLM)の集合であるQwen-VLシリーズを紹介する。
視覚能力は, (i) 視覚受容体, (ii) 入力出力インタフェース, (iii) 3段階トレーニングパイプライン, (iv) 多言語マルチモーダルクリーンコーパスによって実現された。
Qwen-VLやQwen-VL-Chatを含む結果のモデルは、同様のモデルスケールでジェネラリストモデルに新しいレコードを設定した。
論文 参考訳(メタデータ) (2023-08-24T17:59:17Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。