論文の概要: Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training
- arxiv url: http://arxiv.org/abs/2307.07063v4
- Date: Tue, 19 Dec 2023 22:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:16:08.244101
- Title: Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training
- Title(参考訳): 分離言語事前学習によるブートストラップ型ビジョンランゲージ学習
- Authors: Yiren Jian, Chongyang Gao, Soroush Vosoughi
- Abstract要約: 本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
- 参考スコア(独自算出の注目度): 46.570154746311935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel methodology aimed at optimizing the application of frozen
large language models (LLMs) for resource-intensive vision-language (VL)
pre-training. The current paradigm uses visual features as prompts to guide
language models, with a focus on determining the most relevant visual features
for corresponding text. Our approach diverges by concentrating on the language
component, specifically identifying the optimal prompts to align with visual
features. We introduce the Prompt-Transformer (P-Former), a model that predicts
these ideal prompts, which is trained exclusively on linguistic data, bypassing
the need for image-text pairings. This strategy subtly bifurcates the
end-to-end VL training process into an additional, separate stage. Our
experiments reveal that our framework significantly enhances the performance of
a robust image-to-text baseline (BLIP-2), and effectively narrows the
performance gap between models trained with either 4M or 129M image-text pairs.
Importantly, our framework is modality-agnostic and flexible in terms of
architectural design, as validated by its successful application in a video
learning task using varied base modules. The code will be made available at
https://github.com/yiren-jian/BLIText.
- Abstract(参考訳): 本稿では,凍結型大言語モデル(llms)のリソース集約型視覚言語(vl)事前学習への応用を最適化する新しい手法を提案する。
現在のパラダイムでは、言語モデルをガイドするプロンプトとして視覚的特徴を使用し、対応するテキストに対して最も関連性の高い視覚的特徴を決定することに重点を置いている。
私たちのアプローチは、言語コンポーネントに集中することで、視覚的な特徴に合わせるのに最適なプロンプトを特定することで多様化します。
Prompt-Transformer (P-Former) は,これらの理想的なプロンプトを予測し,画像とテキストのペアリングの必要性を回避し,言語データのみを訓練するモデルである。
この戦略は、エンドツーエンドのVLトレーニングプロセスを、別段のステージに微妙に分岐させる。
実験の結果,本フレームワークはロバストな画像からテキストへのベースライン(blip-2)の性能を大幅に向上させ,4mまたは129mのイメージテキストペアでトレーニングされたモデル間のパフォーマンスギャップを効果的に狭めていることが明らかとなった。
重要な点として,本フレームワークはアーキテクチャ設計の観点からはモダリティ非依存かつ柔軟であり,多様なベースモジュールを用いたビデオ学習タスクにおいて,その成功例によって検証されている。
コードはhttps://github.com/yiren-jian/BLITextで入手できる。
関連論文リスト
- VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - UNIMO-2: End-to-End Unified Vision-Language Grounded Learning [46.914284894632]
本稿では, エンドツーエンドの統一モーダル事前学習フレームワーク, UNIMO-2を提案する。
我々は、画像とテキスト間の視覚表現、テキスト表現、意味的アライメントを共同で学習する統合トランスフォーマーモデルを構築した。
コードとモデルは、UNIMOプロジェクトページで公開されています。
論文 参考訳(メタデータ) (2022-03-17T03:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。