論文の概要: Qwen-VL: A Versatile Vision-Language Model for Understanding,
Localization, Text Reading, and Beyond
- arxiv url: http://arxiv.org/abs/2308.12966v2
- Date: Thu, 14 Sep 2023 17:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 18:18:34.157255
- Title: Qwen-VL: A Versatile Vision-Language Model for Understanding,
Localization, Text Reading, and Beyond
- Title(参考訳): Qwen-VL: 理解、ローカライゼーション、テキスト読解などのための多機能視覚言語モデル
- Authors: Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng
Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- Abstract要約: 大規模視覚言語モデル(LVLM)の集合であるQwen-VLシリーズを紹介する。
Qwen-VLとQwen-VL-Chatは、画像キャプション、質問応答、視覚的ローカライゼーション、フレキシブルなインタラクションといったタスクで顕著なパフォーマンスを示している。
アーキテクチャ、トレーニング、能力、パフォーマンスを示し、マルチモーダル人工知能の発展への貢献を強調します。
- 参考スコア(独自算出の注目度): 72.41822115096741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Qwen-VL series, a set of large-scale vision-language models
(LVLMs) designed to perceive and understand both text and images. Comprising
Qwen-VL and Qwen-VL-Chat, these models exhibit remarkable performance in tasks
like image captioning, question answering, visual localization, and flexible
interaction. The evaluation covers a wide range of tasks including zero-shot
captioning, visual or document visual question answering, and grounding. We
demonstrate the Qwen-VL outperforms existing LVLMs. We present their
architecture, training, capabilities, and performance, highlighting their
contributions to advancing multimodal artificial intelligence. Code, demo and
models are available at https://github.com/QwenLM/Qwen-VL.
- Abstract(参考訳): テキストと画像の両方を知覚し理解するために設計された大規模視覚言語モデル(LVLM)であるQwen-VLシリーズを紹介する。
Qwen-VLとQwen-VL-Chatを組み合わせたこれらのモデルは、画像キャプション、質問応答、視覚的ローカライゼーション、フレキシブルなインタラクションといったタスクにおいて、優れたパフォーマンスを示す。
評価は、ゼロショットキャプション、視覚的または文書的な視覚的質問応答、接地など幅広いタスクをカバーする。
我々は、Qwen-VLが既存のLVLMより優れていることを示す。
我々は、そのアーキテクチャ、トレーニング、能力、パフォーマンスを示し、マルチモーダル人工知能の進歩への貢献を強調する。
コード、デモ、モデルはhttps://github.com/qwenlm/qwen-vlで入手できる。
関連論文リスト
- Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-06T13:04:39Z) - MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。
得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文 参考訳(メタデータ) (2023-03-15T20:17:41Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Crossing the Format Boundary of Text and Boxes: Towards Unified
Vision-Language Modeling [50.370767959977506]
UNICORNは、テキスト生成とバウンディングボックス予測を単一のアーキテクチャに統合するビジョン言語モデルである。
生成タスクとしてすべての視覚言語問題を定式化し、ターゲットシーケンスは統合テキストとボックストークンから構成される。
このような統合されたフレームワークと入出力フォーマットにより、UNICORNは7つのVLベンチマーク上でのタスク固有の状態に匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-23T18:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。