論文の概要: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image
Encoders and Large Language Models
- arxiv url: http://arxiv.org/abs/2301.12597v3
- Date: Thu, 15 Jun 2023 07:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 02:24:03.895802
- Title: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image
Encoders and Large Language Models
- Title(参考訳): BLIP-2:凍結画像エンコーダと大規模言語モデルを用いたブートストラップ言語画像事前学習
- Authors: Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi
- Abstract要約: BLIP-2は視覚言語による事前学習のための汎用的で効率的な事前学習戦略である。
市販のフリーズイメージエンコーダとフリーズされた大型言語モデルから、ビジョン言語による事前トレーニングをブートストラップする。
BLIP-2は、既存の手法に比べてトレーニング可能なパラメータが大幅に少ないにもかかわらず、様々な視覚言語タスクにおける最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 48.60913440871774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cost of vision-and-language pre-training has become increasingly
prohibitive due to end-to-end training of large-scale models. This paper
proposes BLIP-2, a generic and efficient pre-training strategy that bootstraps
vision-language pre-training from off-the-shelf frozen pre-trained image
encoders and frozen large language models. BLIP-2 bridges the modality gap with
a lightweight Querying Transformer, which is pre-trained in two stages. The
first stage bootstraps vision-language representation learning from a frozen
image encoder. The second stage bootstraps vision-to-language generative
learning from a frozen language model. BLIP-2 achieves state-of-the-art
performance on various vision-language tasks, despite having significantly
fewer trainable parameters than existing methods. For example, our model
outperforms Flamingo80B by 8.7% on zero-shot VQAv2 with 54x fewer trainable
parameters. We also demonstrate the model's emerging capabilities of zero-shot
image-to-text generation that can follow natural language instructions.
- Abstract(参考訳): 大規模モデルのエンドツーエンドトレーニングにより、視覚と言語による事前学習のコストはますます厳しくなっている。
本稿では,市販の凍結済み画像エンコーダと凍結大型言語モデルから視覚言語事前学習をブートストラップする汎用的で効率的な事前学習戦略BLIP-2を提案する。
BLIP-2は2つの段階で事前訓練された軽量クエリ変換器でモダリティギャップを埋める。
第1ステージは、凍結画像エンコーダから視覚言語表現学習をブートストラップする。
第2ステージは、凍結した言語モデルから視覚から言語への生成学習をブートストラップする。
BLIP-2は、既存の手法に比べてトレーニング可能なパラメータが大幅に少ないにもかかわらず、様々な視覚言語タスクにおける最先端のパフォーマンスを実現する。
例えば、Flamingo80BはゼロショットVQAv2で8.7%、トレーニング可能なパラメータは54倍である。
また、自然言語の指示に従うことができるゼロショット画像・テキスト生成の新たな能力を示す。
関連論文リスト
- Dreaming Out Loud: A Self-Synthesis Approach For Training Vision-Language Models With Developmentally Plausible Data [3.1715756370116637]
人間の認知発達からインスピレーションを得て、限られたデータ条件下でモデルをトレーニングします。
我々の手法は、発達的に妥当な量のデータを用いてマルチモーダルモデルを訓練するための概念実証を提供する。
論文 参考訳(メタデータ) (2024-10-29T10:50:03Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2023-09-15T16:48:34Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。