論文の概要: Can Multimodal Large Language Models Truly Perform Multimodal In-Context Learning?
- arxiv url: http://arxiv.org/abs/2311.18021v2
- Date: Sat, 07 Dec 2024 15:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:51:41.514491
- Title: Can Multimodal Large Language Models Truly Perform Multimodal In-Context Learning?
- Title(参考訳): マルチモーダル大規模言語モデルは、マルチモーダルインコンテキスト学習を真に達成できるか?
- Authors: Shuo Chen, Zhen Han, Bailan He, Jianzhe Liu, Mark Buckley, Yao Qin, Philip Torr, Volker Tresp, Jindong Gu,
- Abstract要約: インコンテキスト学習(ICL)機能を持つ大規模言語モデル(LLM)は、いくつかのデモ(デム)がある場合、特定のコンテキストに迅速に適応することができる。
最近、MLLM (Multimodal Large Language Models) もマルチモーダル ICL の機能を示し、画像、クエリ、回答を含むいくつかのマルチモーダルなデモに対してクエリに応答している。
- 参考スコア(独自算出の注目度): 42.03008819332293
- License:
- Abstract: Large Language Models (LLMs) with in-context learning (ICL) ability can quickly adapt to a specific context given a few demonstrations (demos). Recently, Multimodal Large Language Models (MLLMs) built upon LLMs have also shown multimodal ICL ability, i.e., responding to queries given a few multimodal demos, including images, queries, and answers. While ICL has been extensively studied on LLMs, its research on MLLMs remains limited. One essential question is whether these MLLMs can truly conduct multimodal ICL, or if only the textual modality is necessary. We investigate this question by examining two primary factors that influence ICL: 1) Demo content, i.e., understanding the influences of demo content in different modalities. 2) Demo selection strategy, i.e., how to select better multimodal demos for improved performance. Experiments revealed that multimodal ICL is predominantly driven by the textual content whereas the visual information in the demos has little influence. Interestingly, visual content is still necessary and useful for selecting demos to increase performance. Motivated by our analysis, we propose a simple yet effective approach, termed Mixed Modality In-Context Example Selection (MMICES), which considers both visual and language modalities when selecting demos. Extensive experiments are conducted to support our findings and verify the improvement brought by our method. Code is available at \url{https://chenxshuo.github.io/m-icl/}.
- Abstract(参考訳): インコンテキスト学習(ICL)機能を持つ大規模言語モデル(LLM)は、いくつかのデモ(demos)を前提として、特定のコンテキストに迅速に適応することができる。
近年、LLM上に構築されたMultimodal Large Language Models (MLLM)は、画像、クエリ、回答を含むいくつかのマルチモーダルデモが与えられたクエリに応答するマルチモーダルICL能力を示している。
ICLはLLMで広く研究されているが、MLLMの研究は限られている。
重要な問題のひとつは、これらのMLLMが真にマルチモーダルICLを実行できるかどうか、あるいはテキストのモダリティだけを必要とするかどうかである。
ICLに影響を及ぼす2つの要因について検討する。
1)デモコンテンツ、すなわち、異なるモダリティにおけるデモコンテンツの影響を理解すること。
2 デモ選択戦略、すなわち、パフォーマンス向上のためのより良いマルチモーダルデモの選択方法。
実験の結果、マルチモーダルICLは主としてテキストの内容によって駆動されるが、デモの視覚情報はほとんど影響しないことがわかった。
興味深いことに、ビジュアルコンテンツは依然として必要であり、パフォーマンスを向上させるためにデモを選択するのに役立ちます。
そこで本研究では,デモ選択時の視覚的・言語的モダリティを考慮した,Mixed Modality In-Context Example Selection(MMICES)を提案する。
本研究の成果を裏付けるとともに,本手法がもたらす改善を検証するため,広範囲な実験を行った。
コードは \url{https://chenxshuo.github.io/m-icl/} で公開されている。
関連論文リスト
- Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models [15.622219099903067]
マルチモーダル入力の順序を変えることで、モデルの性能が高度な性能とランダムな推測の間で変動することを発見した。
この現象は、単一のモダリティ(テキストのみまたは画像のみ)と混合モダリティ(画像-テキスト-ペア)の両方の文脈に存在する。
MLLM評価における順序バイアスに対処する新しい指標である位置不変精度(PIA)を提案する。
論文 参考訳(メタデータ) (2024-10-22T13:05:11Z) - AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning [15.770849688170477]
インコンテキスト学習(ICL)は、数十億のパラメータを更新することなく、下流タスクに創発的な能力を示す大規模言語モデルを容易にする。
ほとんどのMLLMはシングルイメージのデータセットでのみトレーニングされているため、マルチモーダルなデモンストレーションは読めない。
textbfAggregating textbf Image information of textbfMultimodal demonstrations to the dense latent space of the corresponding language part。
論文 参考訳(メタデータ) (2024-06-11T08:12:43Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。