論文の概要: Understanding and Improving In-Context Learning on Vision-language
Models
- arxiv url: http://arxiv.org/abs/2311.18021v1
- Date: Wed, 29 Nov 2023 19:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:59:32.792116
- Title: Understanding and Improving In-Context Learning on Vision-language
Models
- Title(参考訳): 視覚言語モデルによる文脈学習の理解と改善
- Authors: Shuo Chen, Zhen Han, Bailan He, Mark Buckley, Philip Torr, Volker
Tresp, Jindong Gu
- Abstract要約: In-context Learning (ICL) on large language model (LLMs) に大きな注目を集めており、この手法は視覚言語モデル (VLMs) に適用できる。
本研究では,視覚情報と言語情報の両方の重要性について検討する。
我々は、Mixed Modality In-Context Example Selection (MMICES)と呼ばれるシンプルだが効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 42.7212469140844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, in-context learning (ICL) on large language models (LLMs) has
received great attention, and this technique can also be applied to
vision-language models (VLMs) built upon LLMs. These VLMs can respond to
queries by conditioning responses on a series of multimodal demonstrations,
which comprise images, queries, and answers. Though ICL has been extensively
studied on LLMs, its research on VLMs remains limited. The inclusion of
additional visual information in the demonstrations motivates the following
research questions: which of the two modalities in the demonstration is more
significant? How can we select effective multimodal demonstrations to enhance
ICL performance? This study investigates the significance of both visual and
language information. Our findings indicate that ICL in VLMs is predominantly
driven by the textual information in the demonstrations whereas the visual
information in the demonstrations barely affects the ICL performance.
Subsequently, we provide an understanding of the findings by analyzing the
model information flow and comparing model inner states given different ICL
settings. Motivated by our analysis, we propose a simple yet effective
approach, termed Mixed Modality In-Context Example Selection (MMICES), which
considers both visual and language modalities when selecting demonstrations and
shows better ICL performance. Extensive experiments are conducted to support
our findings, understanding, and improvement of the ICL performance of VLMs.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) における文脈内学習 (ICL) が注目されており,この手法はLLM上に構築された視覚言語モデル (VLM) にも適用可能である。
これらのVLMは、画像、クエリ、回答で構成される一連のマルチモーダルなデモに対して応答を条件付けることで、クエリに応答することができる。
ICLはLLMで広く研究されているが、VLMの研究は限られている。
デモに視覚情報を追加することは、以下の研究課題を動機づける: デモにおける2つのモダリティのうちどちらがより重要であるか?
ICL性能を高めるために効果的なマルチモーダルデモをどうやって選択できるのか?
本研究では視覚情報と言語情報の両方の重要性について検討する。
以上の結果から,VLMにおけるICLは実演におけるテキスト情報によって主に駆動されるが,実演における視覚情報はICLのパフォーマンスにはほとんど影響しないことがわかった。
次に, モデル情報の流れを分析し, icl設定の異なるモデル内部状態を比較することにより, 結果を理解する。
そこで本研究では,実演選択時の視覚的・言語的モダリティを考慮し,より優れたICL性能を示すMixed Modality In-Context Example Selection(MMICES)を提案する。
VLMのICL性能の発見,理解,改善を支援するため,広範囲な実験を行った。
関連論文リスト
- Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models [15.622219099903067]
マルチモーダル入力の順序を変えることで、モデルの性能が高度な性能とランダムな推測の間で変動することを発見した。
この現象は、単一のモダリティ(テキストのみまたは画像のみ)と混合モダリティ(画像-テキスト-ペア)の両方の文脈に存在する。
MLLM評価における順序バイアスに対処する新しい指標である位置不変精度(PIA)を提案する。
論文 参考訳(メタデータ) (2024-10-22T13:05:11Z) - AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning [15.770849688170477]
インコンテキスト学習(ICL)は、数十億のパラメータを更新することなく、下流タスクに創発的な能力を示す大規模言語モデルを容易にする。
ほとんどのMLLMはシングルイメージのデータセットでのみトレーニングされているため、マルチモーダルなデモンストレーションは読めない。
textbfAggregating textbf Image information of textbfMultimodal demonstrations to the dense latent space of the corresponding language part。
論文 参考訳(メタデータ) (2024-06-11T08:12:43Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。