Fugu-MT 論文翻訳(概要): Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

論文の概要: Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

arxiv url: http://arxiv.org/abs/2308.12966v3
Date: Fri, 13 Oct 2023 02:41:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 17:15:35.235528
Title: Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
Title（参考訳）: Qwen-VL: 理解、ローカライゼーション、テキスト読解などのための多機能視覚言語モデル
Authors: Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
Abstract要約: 大規模視覚言語モデル(LVLM)の集合であるQwen-VLシリーズを紹介する。視覚能力は, (i) 視覚受容体, (ii) 入力出力インタフェース, (iii) 3段階トレーニングパイプライン, (iv) 多言語マルチモーダルクリーンコーパスによって実現された。 Qwen-VLやQwen-VL-Chatを含む結果のモデルは、同様のモデルスケールでジェネラリストモデルに新しいレコードを設定した。
参考スコア（独自算出の注目度）: 72.41822115096741
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we introduce the Qwen-VL series, a set of large-scale vision-language models (LVLMs) designed to perceive and understand both texts and images. Starting from the Qwen-LM as a foundation, we endow it with visual capacity by the meticulously designed (i) visual receptor, (ii) input-output interface, (iii) 3-stage training pipeline, and (iv) multilingual multimodal cleaned corpus. Beyond the conventional image description and question-answering, we implement the grounding and text-reading ability of Qwen-VLs by aligning image-caption-box tuples. The resulting models, including Qwen-VL and Qwen-VL-Chat, set new records for generalist models under similar model scales on a broad range of visual-centric benchmarks (e.g., image captioning, question answering, visual grounding) and different settings (e.g., zero-shot, few-shot). Moreover, on real-world dialog benchmarks, our instruction-tuned Qwen-VL-Chat also demonstrates superiority compared to existing vision-language chatbots. Code, demo and models are available at https://github.com/QwenLM/Qwen-VL.
Abstract（参考訳）: 本研究では,テキストと画像の両方を知覚・理解するための大規模視覚言語モデル(LVLM)であるQwen-VLシリーズを紹介する。ファウンデーションとしてのQwen-LMから始まり、精巧に設計した視覚能力を持つ。視覚受容体; 視覚受容体; 視覚受容体 (ii)入力出力インタフェース、 (iii)3段階の訓練パイプライン、及び (iv)多言語マルチモーダルクリーンコーパス。従来の画像記述や質問応答以外にも,画像キャプチャボックスのタプルをアライメントすることで,Qwen-VLのグラウンドディングとテキスト読み出し機能を実装している。 Qwen-VL や Qwen-VL-Chat を含む結果のモデルは、視覚中心の幅広いベンチマーク(例えば、画像キャプション、質問応答、視覚的グラウンド)と異なる設定(例えば、ゼロショット、少数ショット)に基づいて、同様のモデルスケールでジェネラリストモデルの新たなレコードを設定した。さらに、実世界のダイアログベンチマークでは、既存の視覚言語チャットボットと比較して、命令調整のQwen-VL-Chatが優れていることを示す。コード、デモ、モデルはhttps://github.com/qwenlm/qwen-vlで入手できる。

関連論文リスト

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文参考訳（メタデータ） (2024-09-18T17:59:32Z)
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。 VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文参考訳（メタデータ） (2023-12-14T18:59:43Z)
CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。 CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。 CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2023-11-06T13:04:39Z)
MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文参考訳（メタデータ） (2023-03-15T20:17:41Z)
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文参考訳（メタデータ） (2022-09-15T17:59:59Z)
Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling [50.370767959977506]
UNICORNは、テキスト生成とバウンディングボックス予測を単一のアーキテクチャに統合するビジョン言語モデルである。生成タスクとしてすべての視覚言語問題を定式化し、ターゲットシーケンスは統合テキストとボックストークンから構成される。このような統合されたフレームワークと入出力フォーマットにより、UNICORNは7つのVLベンチマーク上でのタスク固有の状態に匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-11-23T18:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。