論文の概要: Understanding and Improving In-Context Learning on Vision-language
Models
- arxiv url: http://arxiv.org/abs/2311.18021v1
- Date: Wed, 29 Nov 2023 19:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:59:32.792116
- Title: Understanding and Improving In-Context Learning on Vision-language
Models
- Title(参考訳): 視覚言語モデルによる文脈学習の理解と改善
- Authors: Shuo Chen, Zhen Han, Bailan He, Mark Buckley, Philip Torr, Volker
Tresp, Jindong Gu
- Abstract要約: In-context Learning (ICL) on large language model (LLMs) に大きな注目を集めており、この手法は視覚言語モデル (VLMs) に適用できる。
本研究では,視覚情報と言語情報の両方の重要性について検討する。
我々は、Mixed Modality In-Context Example Selection (MMICES)と呼ばれるシンプルだが効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 42.7212469140844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, in-context learning (ICL) on large language models (LLMs) has
received great attention, and this technique can also be applied to
vision-language models (VLMs) built upon LLMs. These VLMs can respond to
queries by conditioning responses on a series of multimodal demonstrations,
which comprise images, queries, and answers. Though ICL has been extensively
studied on LLMs, its research on VLMs remains limited. The inclusion of
additional visual information in the demonstrations motivates the following
research questions: which of the two modalities in the demonstration is more
significant? How can we select effective multimodal demonstrations to enhance
ICL performance? This study investigates the significance of both visual and
language information. Our findings indicate that ICL in VLMs is predominantly
driven by the textual information in the demonstrations whereas the visual
information in the demonstrations barely affects the ICL performance.
Subsequently, we provide an understanding of the findings by analyzing the
model information flow and comparing model inner states given different ICL
settings. Motivated by our analysis, we propose a simple yet effective
approach, termed Mixed Modality In-Context Example Selection (MMICES), which
considers both visual and language modalities when selecting demonstrations and
shows better ICL performance. Extensive experiments are conducted to support
our findings, understanding, and improvement of the ICL performance of VLMs.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) における文脈内学習 (ICL) が注目されており,この手法はLLM上に構築された視覚言語モデル (VLM) にも適用可能である。
これらのVLMは、画像、クエリ、回答で構成される一連のマルチモーダルなデモに対して応答を条件付けることで、クエリに応答することができる。
ICLはLLMで広く研究されているが、VLMの研究は限られている。
デモに視覚情報を追加することは、以下の研究課題を動機づける: デモにおける2つのモダリティのうちどちらがより重要であるか?
ICL性能を高めるために効果的なマルチモーダルデモをどうやって選択できるのか?
本研究では視覚情報と言語情報の両方の重要性について検討する。
以上の結果から,VLMにおけるICLは実演におけるテキスト情報によって主に駆動されるが,実演における視覚情報はICLのパフォーマンスにはほとんど影響しないことがわかった。
次に, モデル情報の流れを分析し, icl設定の異なるモデル内部状態を比較することにより, 結果を理解する。
そこで本研究では,実演選択時の視覚的・言語的モダリティを考慮し,より優れたICL性能を示すMixed Modality In-Context Example Selection(MMICES)を提案する。
VLMのICL性能の発見,理解,改善を支援するため,広範囲な実験を行った。
関連論文リスト
- X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Comparable Demonstrations are Important in In-Context Learning: A Novel
Perspective on Demonstration Selection [22.29452683679149]
In-Context Learning(ICL)は、大規模言語モデル(LLM)をダウンストリームタスクに適用するための重要なパラダイムである。
本研究は、ICLのメカニズムを新しい視点から検討し、ICLの実証選択戦略についてより深い知見を提供する。
論文 参考訳(メタデータ) (2023-12-12T18:05:46Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Exploring the Relationship between In-Context Learning and Instruction
Tuning [18.186126518966017]
In-Context Learning (ICL) と Instruction Tuning (IT) は、下流アプリケーションにLarge Language Modelsを採用する2つの主要なパラダイムである。
ICLでは、推論時に一連のデモが提供されるが、LLMのパラメータは更新されない。
ITでは、LLMのパラメータをトレーニング時にチューニングするために一連のデモが使用されるが、推論時にデモは使用されない。
論文 参考訳(メタデータ) (2023-11-17T07:40:46Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。