論文の概要: Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2310.03291v3
- Date: Wed, 21 Feb 2024 09:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:17:18.292788
- Title: Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction
- Title(参考訳): 冗長性低減による視覚条件付き言語生成の迅速学習
- Authors: Yiren Jian, Tingkai Liu, Yunzhe Tao, Chunhui Zhang, Soroush Vosoughi,
Hongxia Yang
- Abstract要約: $textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
- 参考スコア(独自算出の注目度): 61.16125290912494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce $\text{EVL}_{\text{Gen}}$, a streamlined
framework designed for the pre-training of visually conditioned language
generation models with high computational demands, utilizing frozen pre-trained
large language models (LLMs). The conventional approach in vision-language
pre-training (VLP) typically involves a two-stage optimization process: an
initial resource-intensive phase dedicated to general-purpose vision-language
representation learning, focused on extracting and consolidating relevant
visual features. This is followed by a subsequent phase that emphasizes
end-to-end alignment between visual and linguistic modalities. Our novel
one-stage, single-loss framework bypasses the computationally demanding first
training stage by gradually merging similar visual tokens during training,
while avoiding model collapse caused by single-stage training of BLIP-2 type
models. The gradual merging process effectively condenses visual information
while preserving semantic richness, resulting in rapid convergence without
compromising performance. Our experimental findings demonstrate that our
approach accelerates the training of vision-language models by a factor of 5
without a noticeable impact on overall performance. Furthermore, we illustrate
that our models significantly narrow the performance gap to current
vision-language models using only 1/10 of the data. Finally, we showcase how
our image-text models can seamlessly adapt to video-conditioned language
generation tasks through novel soft attentive temporal token contextualizing
modules. Code is available at \url{https://github.com/yiren-jian/EVLGen}.
- Abstract(参考訳): 本稿では,凍結事前学習型大言語モデル(LLMs)を用いて,視覚条件付き言語生成モデルの事前学習を目的とした合理化フレームワークである$\text{EVL}_{\text{Gen}}$を紹介する。
視覚言語事前学習(VLP)の従来のアプローチは、一般的に2段階の最適化プロセスを含む: 汎用的な視覚言語表現学習に特化した初期資源集約型フェーズであり、関連する視覚特徴の抽出と統合に重点を置いている。
続くフェーズでは、視覚と言語的モダリティのエンドツーエンドのアライメントを強調している。
BLIP-2型モデルの単段階学習によるモデル崩壊を回避しつつ、トレーニング中に類似した視覚トークンを徐々にマージすることで、計算要求の第一訓練段階をバイパスする。
段階的なマージ処理は、意味豊かさを保ちながら視覚情報を効果的に凝縮し、性能を損なうことなく迅速に収束する。
実験の結果,本手法は視覚言語モデルの学習を5倍に促進し,全体の性能に顕著な影響を与えないことがわかった。
さらに,本モデルでは1/10のデータのみを用いて,現在の視覚言語モデルの性能ギャップをかなり狭めていることを示す。
最後に,映像テキストモデルが,新たなソフトアテインティブなテンポラルトークンコンテキスト化モジュールを通じて,ビデオコンディショニング言語生成タスクにシームレスに適応する方法について紹介する。
コードは \url{https://github.com/yiren-jian/evlgen} で入手できる。
関連論文リスト
- Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension [21.500920290909843]
本稿では,Large Language Models (LLM) のための新しい事前学習パラダイムを提案し,その視覚的理解能力を高める。
具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。
我々はCrocと呼ばれる新しい基礎モデルを提案し、大規模な視覚言語ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-18T09:44:25Z) - Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。