論文の概要: eP-ALM: Efficient Perceptual Augmentation of Language Models
- arxiv url: http://arxiv.org/abs/2303.11403v4
- Date: Fri, 27 Oct 2023 16:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:32:12.811971
- Title: eP-ALM: Efficient Perceptual Augmentation of Language Models
- Title(参考訳): eP-ALM: 言語モデルの効率的な知覚増強
- Authors: Mustafa Shukor, Corentin Dancette, Matthieu Cord
- Abstract要約: 本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
- 参考スコア(独自算出の注目度): 70.47962271121389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have so far impressed the world, with
unprecedented capabilities that emerge in models at large scales. On the vision
side, transformer models (i.e., ViT) are following the same trend, achieving
the best performance on challenging benchmarks. With the abundance of such
unimodal models, a natural question arises; do we need also to follow this
trend to tackle multimodal tasks? In this work, we propose to rather direct
effort to efficient adaptations of existing models, and propose to augment
Language Models with perception. Existing approaches for adapting pretrained
models for vision-language tasks still rely on several key components that
hinder their efficiency. In particular, they still train a large number of
parameters, rely on large multimodal pretraining, use encoders (e.g., CLIP)
trained on huge image-text datasets, and add significant inference overhead. In
addition, most of these approaches have focused on Zero-Shot and In Context
Learning, with little to no effort on direct finetuning. We investigate the
minimal computational effort needed to adapt unimodal models for multimodal
tasks and propose a new challenging setup, alongside different approaches, that
efficiently adapts unimodal pretrained models. We show that by freezing more
than 99% of total parameters, training only one linear projection layer, and
prepending only one trainable token, our approach (dubbed eP-ALM) significantly
outperforms other baselines on VQA and Captioning across Image, Video, and
Audio modalities, following the proposed setup. The code is available here:
https://github.com/mshukor/eP-ALM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、これまでになく大規模なモデルで現れる前例のない機能で、世界に印象を与えてきました。
視覚面では、トランスフォーマーモデル(すなわちViT)は同じ傾向を辿り、挑戦的なベンチマークで最高のパフォーマンスを達成する。
このようなユニモーダルモデルが豊富に存在すると、自然な疑問が生まれ、マルチモーダルなタスクに取り組むためにこの傾向に従う必要があるのだろうか?
本研究では,既存のモデルの効率的な適応のために,むしろ直接的な努力をすることを提案し,知覚を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前学習されたモデルを適用する既存のアプローチは、その効率を妨げるいくつかの重要なコンポーネントに依存している。
特に、多くのパラメータをトレーニングし、大きなマルチモーダルプリトレーニングに依存し、巨大な画像テキストデータセットでトレーニングされたエンコーダ(クリップなど)を使用し、大きな推論オーバーヘッドを追加する。
加えて、これらのアプローチのほとんどはゼロショットとコンテキスト学習に重点を置いており、直接の微調整にはほとんど努力していない。
マルチモーダルタスクに単調モデルを適用するのに必要な最小限の計算労力について検討し、単調事前学習モデルに効率よく適応する異なるアプローチとともに、新しい挑戦的なセットアップを提案する。
我々は,全パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを前倒しすることで,提案した設定に従って,VQA と Captioning の他のベースラインを著しく上回ることを示す。
コードは、https://github.com/mshukor/eP-ALM.comで入手できる。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - POA: Pre-training Once for Models of All Sizes [33.72644336390202]
我々はPOA(Pre-Treating Once for All)と呼ばれる新しい三枝型自己教師型トレーニングフレームワークを提案する。
我々のアプローチは、革新的な弾性的な学生分岐を近代的な自己蒸留パラダイムに導入する。
ViT、Swin Transformer、ResNetのバックボーンを使って最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-02T06:13:29Z) - Super Tiny Language Models [3.8353434814956517]
本稿では,スーパーティニー言語モデル(STLM)に着目した一連の研究成果を紹介する。
我々は,プーリング機構によるバイトレベルのトークン化,ウェイトタイリング,効率的なトレーニング戦略など,革新的な手法を探求する。
我々の最終的な目標は、広範囲のアプリケーションに対して、高性能な言語モデルをよりアクセスしやすく、実用的なものにすることです。
論文 参考訳(メタデータ) (2024-05-23T04:12:49Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts [14.610244867640471]
最近の視覚言語モデルは大規模事前訓練モデルによって駆動される。
本稿では,過剰適合,破滅的忘れ,視覚と言語間の相互的ギャップといった課題に対処するパラメータ効率の手法を提案する。
いくつかのビデオ質問応答ベンチマークの実験は、性能とパラメータ効率の点で、我々のアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2023-09-27T18:00:09Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。
中国の公共のPLMと比較すると、メンジは単純だがより強力である。
我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文 参考訳(メタデータ) (2021-10-13T13:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。