論文の概要: Renaissance: Investigating the Pretraining of Vision-Language Encoders
- arxiv url: http://arxiv.org/abs/2411.06657v1
- Date: Mon, 11 Nov 2024 01:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:13:13.487635
- Title: Renaissance: Investigating the Pretraining of Vision-Language Encoders
- Title(参考訳): ルネサンス:ビジョンランゲージエンコーダの事前訓練を調査
- Authors: Clayton Fields, Casey Kennington,
- Abstract要約: メタ分析により,視覚言語エンコーダの事前学習に関するいくつかの疑問に答えようとしている。
最初の実験では、事前学習中に視覚言語モデルの大部分を凍結することにより、ダウンストリームのパフォーマンスを低下させることなく、大幅な計算を省くことができることを示した。
第2の実験では,VL変換器が視覚モデルとテキストモデルにどのような効果をもたらすかを検討した。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License:
- Abstract: In the past several years there has been an explosion of available models for vision-language tasks. Unfortunately, the literature still leaves open a number of questions related to best practices in designing and training such models. In this paper we seek to answer several questions related to the pretraining of vision-language encoders through meta-analysis. In our first set of experiments, we show that we can save significant compute at no cost to downstream performance, by freezing large parts of vision-language models during pretraining. In our second set of experiments we examine the effect of basing a VL transformer on a vision model versus a text model. Additionally, we introduce a VL modeling platform called Renaissance that we use to conduct all of the experiments. This program offers a great deal of flexibility in creating, training and evaluating transformer encoders for VL modeling. The source code for Renaissance can be found at https://github.com/bsu-slim/renaissance.
- Abstract(参考訳): ここ数年、視覚言語タスクのためのモデルが爆発的に増えている。
残念なことに、そのようなモデルを設計し、訓練する際のベストプラクティスに関する多くの疑問が残されている。
本稿ではメタ分析を用いて視覚言語エンコーダの事前学習に関するいくつかの疑問に答える。
最初の実験では、事前学習中に視覚言語モデルの大部分を凍結することにより、ダウンストリームのパフォーマンスを低下させることなく、大幅な計算を省くことができることを示した。
第2の実験では,VL変換器が視覚モデルとテキストモデルにどのような効果をもたらすかを検討した。
さらに、ルネッサンス(Renaissance)と呼ばれるVLモデリングプラットフォームを導入し、すべての実験を実施する。
このプログラムは、VLモデリングのためのトランスフォーマーエンコーダの作成、トレーニング、評価において、多くの柔軟性を提供する。
Renaissanceのソースコードはhttps://github.com/bsu-slim/renaissance.comにある。
関連論文リスト
- ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models [10.272476734387977]
線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介する。
モデリング能力を高めるために,データ依存の再現とサンドイッチプロンプトを提案する。
VisualRWKVは、様々なベンチマークでLLaVA-1.5のようなTransformerベースのモデルと比較して、競争力がある。
論文 参考訳(メタデータ) (2024-06-19T09:07:31Z) - Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Toward Building General Foundation Models for Language, Vision, and
Vision-Language Understanding Tasks [27.450456238980433]
我々は新しい基礎モデル X-FM (X-Foundation Model) を提案する。
X-FMには1つの言語エンコーダ、1つの視覚エンコーダ、1つの融合エンコーダと新しい訓練方法がある。
X-FMは既存の基礎モデルを大幅に上回り、言語、視覚、視覚言語理解のための既存の基礎モデルに匹敵する性能を発揮する。
論文 参考訳(メタデータ) (2023-01-12T15:03:05Z) - X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks [38.05496300873095]
ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。
X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
論文 参考訳(メタデータ) (2022-11-22T16:48:01Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。