Fugu-MT 論文翻訳(概要): Many-Shot In-Context Learning in Multimodal Foundation Models

論文の概要: Many-Shot In-Context Learning in Multimodal Foundation Models

arxiv url: http://arxiv.org/abs/2405.09798v2
Date: Fri, 04 Oct 2024 21:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 06:04:05.250425
Title: Many-Shot In-Context Learning in Multimodal Foundation Models
Title（参考訳）: マルチモーダル基礎モデルにおける多面的インテクスト学習
Authors: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng,
Abstract要約: 大規模言語モデルはテキスト内学習(ICL)において効果的であるマルチモーダル基礎モデルの最近の進歩は、前例のない長いコンテキストウインドウを可能にしている。 GPT-4oとGemini 1.5 Proを、複数のドメインにまたがる14のデータセットでベンチマークします。
参考スコア（独自算出の注目度）: 4.772535803521769
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are effective at few-shot in-context learning (ICL). Recent advancements in multimodal foundation models have enabled unprecedentedly long context windows, presenting an opportunity to explore their capability to perform ICL with many more demonstrating examples. In this work, we evaluate the performance of multimodal foundation models scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro across 14 datasets spanning multiple domains (natural imagery, medical imagery, remote sensing, and molecular imagery) and tasks (image classification, visual QA, and object localization). We observe that many-shot ICL, including up to almost 2,000 demonstrating examples, leads to substantial improvements compared to few-shot (<100 examples) ICL across all of the datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly up to the maximum number of tested examples on many datasets. We also find open-weights multimodal foundation models like Llama 3.2-Vision do not benefit from the demonstrating examples, highlighting an important gap between open and closed multimodal foundation models. Given the high inference costs required for many-shot ICL, we also explore the impact of batching multiple queries in a single API call. We show that batching up to 50 queries can lead to performance improvements under zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on multiple datasets, while drastically reducing per-query cost and latency. Finally, while GPT-4o and Gemini 1.5 Pro achieve similar zero-shot performance across the datasets, Gemini 1.5 Pro learns more quickly than GPT-4o on most datasets. Our results suggest that many-shot ICL could enable users to efficiently adapt multimodal foundation models to new applications and domains. Our codebase is publicly available at https://github.com/stanfordmlgroup/ManyICL .
Abstract（参考訳）: 大規模言語モデルは、文脈内学習(ICL)において効果的である。マルチモーダル基礎モデルの最近の進歩は、前例のない長いコンテキストウインドウを可能にし、多くの実例でICLを実行する能力を探究する機会を与えている。本研究では,マルチモーダルファンデーションモデルの性能を,少数ショットから多ショット ICL に拡張した上で評価する。 GPT-4oとGemini 1.5 Proを、複数の領域(自然画像、医用画像、リモートセンシング、分子画像)とタスク(画像分類、視覚的QA、オブジェクトローカライゼーション)にまたがる14のデータセットで比較した。我々は、最大2,000の例を含む多数のショットICLが、全データセットにわたる少数ショット(<100例)ICLに比べて大幅に改善されていることを観察した。さらに、Gemini 1.5 Proのパフォーマンスは、多くのデータセットでテストされたサンプルの最大数まで、ログ行数の改善を続けている。また、Llama 3.2-Visionのようなオープンウェイトなマルチモーダル基盤モデルも、実例の恩恵を受けず、オープンとクローズドなマルチモーダル基盤モデルの間に重要なギャップを浮き彫りにしている。マルチショットICLに必要な高い推論コストを考えると、単一のAPIコールで複数のクエリをバッチ化することの影響についても検討する。最大50のクエリをバッチすることで、ゼロショットとマルチショットのICLでパフォーマンスが向上し、複数のデータセットでのゼロショット設定が大幅に向上すると同時に、クエリ毎のコストとレイテンシを大幅に削減できることを示す。最後に、GPT-4oとGemini 1.5 Proはデータセット全体で同様のゼロショットのパフォーマンスを達成する一方で、ほとんどのデータセットでGPT-4oよりも高速に学習する。この結果から,マルチモーダルファンデーションモデルを新しいアプリケーションやドメインに効率的に適用できる可能性が示唆された。私たちのコードベースはhttps://github.com/stanfordmlgroup/ManyICLで公開されています。

関連論文リスト

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [50.772462704559345]
本稿では,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを紹介する。グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。 Many-Shot ICL Benchmark (ICL-50) は、最大8,000トークンのシーケンスで1から350までのショット数をカバーする50のタスクの大規模ベンチマークである。
論文参考訳（メタデータ） (2025-01-07T14:57:08Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
In-Context Learning with Long-Context Models: An In-Depth Exploration [96.1389740719691]
大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益は同様の例に答えることから得られている。
論文参考訳（メタデータ） (2024-04-30T21:06:52Z)
Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文参考訳（メタデータ） (2024-04-17T02:49:26Z)
GistScore: Learning Better Representations for In-Context Example Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文参考訳（メタデータ） (2023-11-16T06:28:05Z)
Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-10-08T10:47:24Z)
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。 UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文参考訳（メタデータ） (2023-10-01T12:35:18Z)
Self-Supervised Open-Ended Classification with Small Visual Language Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文参考訳（メタデータ） (2023-09-30T21:41:21Z)
SVIT: Scaling up Visual Instruction Tuning [26.794950789335402]
我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。実験では、提案したデータセットに基づいてトレーニングされたSVIT-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回っていることを確認した。
論文参考訳（メタデータ） (2023-07-09T03:25:14Z)
Multi-query Video Retrieval [44.32936301162444]
本稿では,ビデオアーカイブを検索するモデルに対して,複数のクエリが提供されるマルチクエリ・ビデオ検索について,研究の少ない設定に焦点をあてる。本稿では,複数のクエリの類似性出力を単純に組み合わせることで,複数のクエリをトレーニング時に活用する新しい手法を提案する。我々は、さらなるモデリング努力により、この方向性に新たな洞察をもたらし、現実世界のビデオ検索アプリケーションでより良いパフォーマンスを発揮する新しいシステムを創り出すと信じている。
論文参考訳（メタデータ） (2022-01-10T20:44:46Z)
Personalizing Pre-trained Models [23.145974171912414]
上流の事前訓練されたモデルが、下流のいくつかのショット、複数ラベル、連続的な学習タスクにどのように活用できるかを検討する。私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。
論文参考訳（メタデータ） (2021-06-02T22:58:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。