論文の概要: Prismer: A Vision-Language Model with An Ensemble of Experts
- arxiv url: http://arxiv.org/abs/2303.02506v1
- Date: Sat, 4 Mar 2023 21:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:08:42.483248
- Title: Prismer: A Vision-Language Model with An Ensemble of Experts
- Title(参考訳): prismer: 専門家のアンサンブルを備えたビジョン言語モデル
- Authors: Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima
Anandkumar
- Abstract要約: Prismerは、ドメインエキスパートのアンサンブルを利用する、データとパラメータ効率のビジョン言語モデルである。
そこで本研究では,Prismerが現在最先端のモデルと競合する微調整および少数ショットの学習性能を実現することを示す。
- 参考スコア(独自算出の注目度): 82.22145032093736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language models have shown impressive multi-modal generation
capabilities. However, typically they require training huge models on massive
datasets. As a more scalable alternative, we introduce Prismer, a data- and
parameter-efficient vision-language model that leverages an ensemble of domain
experts. Prismer only requires training of a small number of components, with
the majority of network weights inherited from readily-available, pre-trained
domain experts, and kept frozen during training. By leveraging experts from a
wide range of domains, we show that Prismer can efficiently pool this expert
knowledge and adapt it to various vision-language reasoning tasks. In our
experiments, we show that Prismer achieves fine-tuned and few-shot learning
performance which is competitive with current state-of-the-art models, whilst
requiring up to two orders of magnitude less training data. Code is available
at https://github.com/NVlabs/prismer.
- Abstract(参考訳): 最近の視覚言語モデルは印象的なマルチモーダル生成能力を示している。
しかし、通常、巨大なデータセットで巨大なモデルをトレーニングする必要がある。
よりスケーラブルな代替手段として、ドメインエキスパートのアンサンブルを利用するデータおよびパラメータ効率のよいビジョン言語モデルであるprismerを紹介します。
Prismerは少数のコンポーネントのトレーニングしか必要とせず、ネットワークの重量の大部分は、容易に利用できる、トレーニング済みのドメインエキスパートから受け継がれ、トレーニング中に凍結される。
幅広い分野の専門家を活用することで、Prismerはこの専門家の知識を効率的にプールし、様々な視覚言語推論タスクに適応できることを示す。
実験では,最大2桁のトレーニングデータを必要とする一方で,現在の最先端モデルに匹敵する微調整と少数ショットの学習性能を実現することを実証した。
コードはhttps://github.com/NVlabs/prismer.comで入手できる。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - MoVA: Adapting Mixture of Vision Experts to Multimodal Context [38.8308841469793]
我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。
粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。
粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
論文 参考訳(メタデータ) (2024-04-19T17:59:48Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。