論文の概要: Towards Multimodal In-Context Learning for Vision & Language Models
- arxiv url: http://arxiv.org/abs/2403.12736v1
- Date: Tue, 19 Mar 2024 13:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:03:59.007685
- Title: Towards Multimodal In-Context Learning for Vision & Language Models
- Title(参考訳): 視覚・言語モデルのためのマルチモーダル・インコンテキスト学習を目指して
- Authors: Sivan Doveh, Shaked Perek, M. Jehanzeb Mirza, Amit Alfassy, Assaf Arbelle, Shimon Ullman, Leonid Karlinsky,
- Abstract要約: 本研究では、ICL命令に従うための最先端のVLMの機能を解析する。
大規模な混合モダリティ事前訓練を受けたモデルでさえも、少数ショット(ICL)のデモンストレーションを行う際に、インターリーブ画像とテキスト情報のアンダーパフォーマンスを利用するように暗黙的にガイドされていることが判明した。
我々は、ICLのサポート、方法論、カリキュラムで共通のVLMアライメントフレームワークを拡張するための、シンプルで、驚くほど効果的な戦略を提案する。
- 参考スコア(独自算出の注目度): 17.94596325418465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the emergence of Large Language Models (LLMs) that can truly understand human language, significant progress has been made in aligning other, non-language, modalities to be `understandable' by an LLM, primarily via converting their samples into a sequence of embedded language-like tokens directly fed into the LLM (decoder) input stream. However, so far limited attention has been given to transferring (and evaluating) one of the core LLM capabilities to the emerging VLMs, namely the In-Context Learning (ICL) ability, or in other words to guide VLMs to desired target downstream tasks or output structure using in-context image+text demonstrations. In this work, we dive deeper into analyzing the capabilities of some of the state-of-the-art VLMs to follow ICL instructions, discovering them to be somewhat lacking. We discover that even models that underwent large-scale mixed modality pre-training and were implicitly guided to make use of interleaved image and text information (intended to consume helpful context from multiple images) under-perform when prompted with few-shot (ICL) demonstrations, likely due to their lack of `direct' ICL instruction tuning. To test this conjecture, we propose a simple, yet surprisingly effective, strategy of extending a common VLM alignment framework with ICL support, methodology, and curriculum. We explore, analyze, and provide insights into effective data mixes, leading up to a significant 21.03% (and 11.3% on average) ICL performance boost over the strongest VLM baselines and a variety of ICL benchmarks. We also contribute new benchmarks for ICL evaluation in VLMs and discuss their advantages over the prior art.
- Abstract(参考訳): 人間の言語を真に理解できる大規模言語モデル(LLM)の出現に触発されて、LLMによって他の非言語的モダリティを"理解可能"に整合させることで、そのサンプルをLLM(デコーダ)入力ストリームに直接入力される組込み言語のようなトークンのシーケンスに変換することによって、大きな進歩を遂げた。
しかし、これまでのところ、中核的なLLM機能の1つであるICL(In-Context Learning)能力を新興のVLMに転送(および評価)することや、VLMを所望の下流タスクや出力構造に誘導するために、インコンテキストイメージ+テキストのデモを使用するように注意が向けられている。
本研究は、ICL命令に従うための最先端のVLMの能力を詳細に分析し、それらがやや欠如していることを発見した。
大規模な混合モダリティ事前学習を行ったモデルでさえも、直接ICL命令のチューニングが欠如していることから、複数画像から有用なコンテキストを消費するために)インターリーブされた画像とテキスト情報を利用するように暗黙的にガイドされている。
この予想をテストするために、我々は、ICLサポート、方法論、カリキュラムで共通のVLMアライメントフレームワークを拡張するための、シンプルながら驚くほど効果的な戦略を提案する。
我々は、有効なデータミックスに関する洞察を探索し、分析し、提供することで、21.03%(および平均で11.3%)のICLパフォーマンスが、最強のVLMベースラインと様々なICLベンチマークよりも向上する。
また、VLMにおけるICL評価のための新しいベンチマークも提供し、先行技術に対するその優位性について論じる。
関連論文リスト
- Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Link-Context Learning for Multimodal LLMs [40.923816691928536]
リンクコンテキスト学習(LCL)はMLLMの学習能力を高めるために「原因と効果からの推論」を強調する。
LCLは、アナログだけでなく、データポイント間の因果関係も識別するようモデルに導出する。
本手法の評価を容易にするため,ISEKAIデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-15T17:33:24Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。