論文の概要: Many-Shot In-Context Learning in Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2405.09798v1
- Date: Thu, 16 May 2024 04:02:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:20:51.698561
- Title: Many-Shot In-Context Learning in Multimodal Foundation Models
- Title(参考訳): マルチモーダル基礎モデルにおける多面的インテクスト学習
- Authors: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng,
- Abstract要約: マルチモーダルファンデーションモデルの性能を,少数ショットから多ショットICLまで評価した。
マルチショットICLは、全データセットにわたる少数ショット(100例)のICLと比較して、大幅に改善される。
ゼロショットとマルチショットのICLでは,最大50のクエリでパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 4.772535803521769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are well-known to be effective at few-shot in-context learning (ICL). Recent advancements in multimodal foundation models have enabled unprecedentedly long context windows, presenting an opportunity to explore their capability to perform ICL with many more demonstrating examples. In this work, we evaluate the performance of multimodal foundation models scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro across 10 datasets spanning multiple domains (natural imagery, medical imagery, remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and fine-grained classification). We observe that many-shot ICL, including up to almost 2,000 multimodal demonstrating examples, leads to substantial improvements compared to few-shot (<100 examples) ICL across all of the datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly up to the maximum number of tested examples on many datasets. Given the high inference costs associated with the long prompts required for many-shot ICL, we also explore the impact of batching multiple queries in a single API call. We show that batching up to 50 queries can lead to performance improvements under zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on multiple datasets, while drastically reducing per-query cost and latency. Finally, we measure ICL data efficiency of the models, or the rate at which the models learn from more demonstrating examples. We find that while GPT-4o and Gemini 1.5 Pro achieve similar zero-shot performance across the datasets, Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most datasets. Our results suggest that many-shot ICL could enable users to efficiently adapt multimodal foundation models to new applications and domains. Our codebase is publicly available at https://github.com/stanfordmlgroup/ManyICL .
- Abstract(参考訳): 大規模言語モデルは、文脈内学習(ICL)において効果的であることが知られている。
マルチモーダル基礎モデルの最近の進歩は、前例のない長いコンテキストウインドウを可能にし、多くの実例でICLを実行する能力を探究する機会を与えている。
本研究では,マルチモーダルファンデーションモデルの性能を,少数ショットから多ショット ICL に拡張した上で評価する。
GPT-4oとGemini 1.5 Proを、複数の領域(自然画像、医用画像、リモートセンシング、分子画像)とタスク(マルチクラス、マルチラベル、きめ細かい分類)にまたがる10のデータセットで比較した。
最大2000のマルチモーダルな実例を含む多ショットICLは、全データセットにわたる少数ショット(<100例)ICLと比較して大幅に改善されている。
さらに、Gemini 1.5 Proのパフォーマンスは、多くのデータセットでテストされたサンプルの最大数まで、ログ行数の改善を続けている。
マルチショットICLに必要な長いプロンプトに関連する高い推論コストを考えると、単一のAPIコールで複数のクエリをバッチ化することの影響についても検討する。
最大50のクエリをバッチすることで、ゼロショットとマルチショットのICLでパフォーマンスが向上し、複数のデータセットでのゼロショット設定が大幅に向上すると同時に、クエリ毎のコストとレイテンシを大幅に削減できることを示す。
最後に、モデルのICLデータ効率、あるいはモデルがより実証的な例から学ぶ速度を測定する。
GPT-4oとGemini 1.5 Proはデータセット全体で同様のゼロショットのパフォーマンスを達成するが、Gemini 1.5 ProはほとんどのデータセットでGPT-4oよりも高いICLデータ効率を示す。
この結果から,マルチモーダル基礎モデルを新しいアプリケーションやドメインに効率的に適用できる可能性が示唆された。
私たちのコードベースはhttps://github.com/stanfordmlgroup/ManyICLで公開されています。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - In-Context Learning with Long-Context Models: An In-Depth Exploration [96.1389740719691]
大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。
長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益は同様の例に答えることから得られている。
論文 参考訳(メタデータ) (2024-04-30T21:06:52Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - SVIT: Scaling up Visual Instruction Tuning [26.794950789335402]
我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。
実験では、提案したデータセットに基づいてトレーニングされたSVIT-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回っていることを確認した。
論文 参考訳(メタデータ) (2023-07-09T03:25:14Z) - Multi-query Video Retrieval [44.32936301162444]
本稿では,ビデオアーカイブを検索するモデルに対して,複数のクエリが提供されるマルチクエリ・ビデオ検索について,研究の少ない設定に焦点をあてる。
本稿では,複数のクエリの類似性出力を単純に組み合わせることで,複数のクエリをトレーニング時に活用する新しい手法を提案する。
我々は、さらなるモデリング努力により、この方向性に新たな洞察をもたらし、現実世界のビデオ検索アプリケーションでより良いパフォーマンスを発揮する新しいシステムを創り出すと信じている。
論文 参考訳(メタデータ) (2022-01-10T20:44:46Z) - Personalizing Pre-trained Models [23.145974171912414]
上流の事前訓練されたモデルが、下流のいくつかのショット、複数ラベル、連続的な学習タスクにどのように活用できるかを検討する。
私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。
論文 参考訳(メタデータ) (2021-06-02T22:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。