論文の概要: CogVLM: Visual Expert for Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2311.03079v2
- Date: Sun, 4 Feb 2024 08:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:19:46.327261
- Title: CogVLM: Visual Expert for Pretrained Language Models
- Title(参考訳): CogVLM: 事前訓練された言語モデルのビジュアルエキスパート
- Authors: Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang,
Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi
Li, Yuxiao Dong, Ming Ding, Jie Tang
- Abstract要約: 我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 56.69978233342978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CogVLM, a powerful open-source visual language foundation model.
Different from the popular shallow alignment method which maps image features
into the input space of language model, CogVLM bridges the gap between the
frozen pretrained language model and image encoder by a trainable visual expert
module in the attention and FFN layers. As a result, CogVLM enables deep fusion
of vision language features without sacrificing any performance on NLP tasks.
CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal
benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+,
RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on
VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X
55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.
- Abstract(参考訳): 我々はオープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
画像特徴を言語モデルの入力空間にマッピングする一般的な浅層アライメント法とは異なり、CogVLMは、注意層とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって、凍結した事前学習言語モデルと画像エンコーダのギャップを埋める。
その結果、CogVLMはNLPタスクのパフォーマンスを犠牲にすることなく、視覚言語機能の深い融合を可能にする。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的クロスモーダルベンチマークで最先端のパフォーマンスを達成し、VQAv2、OKVQA、TextVQA、COCOキャプティングなど、PaLI-X 55Bを上回り、マッチングする。
コードとチェックポイントはhttps://github.com/THUDM/CogVLMで公開されている。
関連論文リスト
- CogVLM2: Visual Language Models for Image and Video Understanding [69.361109860391]
画像と映像の理解のための新しいビジュアル言語モデルであるCagVLM2ファミリを提案する。
イメージ理解モデルとして、CogVLM2は、トレーニング前とトレーニング後の両方でトレーニングレシピを改善したビジュアルエキスパートアーキテクチャを継承する。
ビデオ理解モデルとして、CogVLM2-Videoはマルチフレーム入力とタイムスタンプを統合し、時間的グラウンドの自動構築を提案する。
論文 参考訳(メタデータ) (2024-08-29T12:59:12Z) - Qwen-VL: A Versatile Vision-Language Model for Understanding,
Localization, Text Reading, and Beyond [72.41822115096741]
大規模視覚言語モデル(LVLM)の集合であるQwen-VLシリーズを紹介する。
視覚能力は, (i) 視覚受容体, (ii) 入力出力インタフェース, (iii) 3段階トレーニングパイプライン, (iv) 多言語マルチモーダルクリーンコーパスによって実現された。
Qwen-VLやQwen-VL-Chatを含む結果のモデルは、同様のモデルスケールでジェネラリストモデルに新しいレコードを設定した。
論文 参考訳(メタデータ) (2023-08-24T17:59:17Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。