論文の概要: Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities
- arxiv url: http://arxiv.org/abs/2308.12966v1
- Date: Thu, 24 Aug 2023 17:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 12:45:35.712047
- Title: Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities
- Title(参考訳): Qwen-VL:Versatile Abilitiesを持つフロンティア大型視線モデル
- Authors: Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng
Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- Abstract要約: 本稿では,大規模な視覚言語モデルであるQwen-VLシリーズを紹介する。
Qwen-VLとQwen-VL-Chatは、画像キャプション、質問応答、視覚的ローカライゼーション、フレキシブルなインタラクションといったタスクで顕著なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 72.41822115096741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Qwen-VL series, a set of large-scale vision-language models
designed to perceive and understand both text and images. Comprising Qwen-VL
and Qwen-VL-Chat, these models exhibit remarkable performance in tasks like
image captioning, question answering, visual localization, and flexible
interaction. The evaluation covers a wide range of tasks including zero-shot
captioning, visual or document visual question answering, and grounding. We
demonstrate the Qwen-VL outperforms existing Large Vision Language Models
(LVLMs). We present their architecture, training, capabilities, and
performance, highlighting their contributions to advancing multimodal
artificial intelligence. Code, demo and models are available at
https://github.com/QwenLM/Qwen-VL.
- Abstract(参考訳): テキストと画像の両方を知覚し理解するために設計された大規模視覚言語モデルであるQwen-VLシリーズを紹介する。
Qwen-VLとQwen-VL-Chatを組み合わせたこれらのモデルは、画像キャプション、質問応答、視覚的ローカライゼーション、フレキシブルなインタラクションといったタスクにおいて、優れたパフォーマンスを示す。
評価は、ゼロショットキャプション、視覚的または文書的な視覚的質問応答、接地など幅広いタスクをカバーする。
本稿では,Qwen-VLが既存のLarge Vision Language Models(LVLM)より優れていることを示す。
我々は、そのアーキテクチャ、トレーニング、能力、パフォーマンスを示し、マルチモーダル人工知能の進歩への貢献を強調する。
コード、デモ、モデルはhttps://github.com/qwenlm/qwen-vlで入手できる。
関連論文リスト
- Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-06T13:04:39Z) - MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。
得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文 参考訳(メタデータ) (2023-03-15T20:17:41Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Crossing the Format Boundary of Text and Boxes: Towards Unified
Vision-Language Modeling [50.370767959977506]
UNICORNは、テキスト生成とバウンディングボックス予測を単一のアーキテクチャに統合するビジョン言語モデルである。
生成タスクとしてすべての視覚言語問題を定式化し、ターゲットシーケンスは統合テキストとボックストークンから構成される。
このような統合されたフレームワークと入出力フォーマットにより、UNICORNは7つのVLベンチマーク上でのタスク固有の状態に匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-23T18:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。