論文の概要: Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning
- arxiv url: http://arxiv.org/abs/2303.11866v1
- Date: Tue, 21 Mar 2023 14:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:48:44.540249
- Title: Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning
- Title(参考訳): パラメータ効率のよい移動学習による言語に対する視覚のコントラストアライメント
- Authors: Zaid Khan and Yun Fu
- Abstract要約: コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
- 参考スコア(独自算出の注目度): 60.26952378997713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive vision-language models (e.g. CLIP) are typically created by
updating all the parameters of a vision model and language model through
contrastive training. Can such models be created by a small number of parameter
updates to an already-trained language model and vision model? The literature
describes techniques that can create vision-language models by updating a small
number of parameters in a language model, but these require already aligned
visual representations and are non-contrastive, hence unusable for
latency-sensitive applications such as neural search. We explore the
feasibility and benefits of parameter-efficient contrastive vision-language
alignment through transfer learning: creating a model such as CLIP by minimally
updating an already-trained vision and language model. We find that a minimal
set of parameter updates ($<$7%) can achieve the same performance as full-model
training, and updating specific components ($<$1% of parameters) can match 75%
of full-model training. We describe a series of experiments: we show that
existing knowledge is conserved more strongly in parameter-efficient training
and that parameter-efficient scaling scales with model and dataset size. Where
paired-image text data is scarce but strong multilingual language models exist
(e.g. low resource languages), parameter-efficient training is even preferable
to full-model training. Given a fixed compute budget, parameter-efficient
training allows training larger models on the same hardware, achieving
equivalent performance in less time. Parameter-efficient training hence
constitutes an energy-efficient and effective training strategy for contrastive
vision-language models that may be preferable to the full-model training
paradigm for common use cases. Code and weights at
https://github.com/codezakh/LilT.
- Abstract(参考訳): 対照的な視覚言語モデル(例:クリップ)は、通常、コントラストトレーニングを通じて視覚モデルと言語モデルのすべてのパラメータを更新することによって作られる。
そのようなモデルは、学習済みの言語モデルとビジョンモデルに対する少数のパラメータ更新によって作成できるだろうか?
この文献は、言語モデルで少数のパラメータを更新することで視覚言語モデルを作成することができるテクニックを記述しているが、これらは、すでに整列された視覚表現を必要としており、非コントラストであるため、ニューラルサーチのような遅延に敏感なアプリケーションでは使用できない。
本稿では,すでに訓練済みの視覚と言語モデルを最小限に更新することで,CLIPのようなモデルを作成することによる,パラメータ効率のよい視覚言語アライメントの実現可能性とメリットについて検討する。
パラメータ更新の最小セット (<$7%) はフルモデルのトレーニングと同じパフォーマンスを達成でき、特定のコンポーネント (<$1%) の更新はフルモデルのトレーニングの75%にマッチする。
既存の知識は、パラメータ効率のトレーニングにおいてより強く保存され、モデルとデータセットサイズによるパラメータ効率のスケーリングスケールが示される。
ペア画像のテキストデータは少ないが、強力な多言語モデル(例えば低リソース言語)が存在する場合、パラメータ効率のトレーニングはフルモデルトレーニングよりも望ましい。
計算予算が一定であれば、パラメータ効率の良いトレーニングによって、同じハードウェア上で大きなモデルをトレーニングでき、同等のパフォーマンスを短時間で達成できます。
従ってパラメータ効率のよいトレーニングは、一般的なユースケースにおいてフルモデルのトレーニングパラダイムよりも望ましい、対照的な視覚言語モデルのエネルギー効率と効果的なトレーニング戦略を構成する。
コードとウェイトはhttps://github.com/codezakh/LilT。
関連論文リスト
- Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。
この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。
本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:52:09Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Multitask Learning for Low Resource Spoken Language Understanding [26.106133114838215]
我々は、自動音声認識と意図分類、感情分類を用いて、二重目的のモデルを訓練する。
我々のモデルは、控えめなサイズではあるが、意図の分類に基づいて訓練されたモデルよりも改善されている。
本研究では,低リソースシナリオにおけるモデルの性能を,クラス毎に1つの例でトレーニングすることで検討する。
論文 参考訳(メタデータ) (2022-11-24T16:38:17Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。