論文の概要: Towards Multimodal In-Context Learning for Vision & Language Models
- arxiv url: http://arxiv.org/abs/2403.12736v1
- Date: Tue, 19 Mar 2024 13:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:03:59.007685
- Title: Towards Multimodal In-Context Learning for Vision & Language Models
- Title(参考訳): 視覚・言語モデルのためのマルチモーダル・インコンテキスト学習を目指して
- Authors: Sivan Doveh, Shaked Perek, M. Jehanzeb Mirza, Amit Alfassy, Assaf Arbelle, Shimon Ullman, Leonid Karlinsky,
- Abstract要約: 本研究では、ICL命令に従うための最先端のVLMの機能を解析する。
大規模な混合モダリティ事前訓練を受けたモデルでさえも、少数ショット(ICL)のデモンストレーションを行う際に、インターリーブ画像とテキスト情報のアンダーパフォーマンスを利用するように暗黙的にガイドされていることが判明した。
我々は、ICLのサポート、方法論、カリキュラムで共通のVLMアライメントフレームワークを拡張するための、シンプルで、驚くほど効果的な戦略を提案する。
- 参考スコア(独自算出の注目度): 17.94596325418465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the emergence of Large Language Models (LLMs) that can truly understand human language, significant progress has been made in aligning other, non-language, modalities to be `understandable' by an LLM, primarily via converting their samples into a sequence of embedded language-like tokens directly fed into the LLM (decoder) input stream. However, so far limited attention has been given to transferring (and evaluating) one of the core LLM capabilities to the emerging VLMs, namely the In-Context Learning (ICL) ability, or in other words to guide VLMs to desired target downstream tasks or output structure using in-context image+text demonstrations. In this work, we dive deeper into analyzing the capabilities of some of the state-of-the-art VLMs to follow ICL instructions, discovering them to be somewhat lacking. We discover that even models that underwent large-scale mixed modality pre-training and were implicitly guided to make use of interleaved image and text information (intended to consume helpful context from multiple images) under-perform when prompted with few-shot (ICL) demonstrations, likely due to their lack of `direct' ICL instruction tuning. To test this conjecture, we propose a simple, yet surprisingly effective, strategy of extending a common VLM alignment framework with ICL support, methodology, and curriculum. We explore, analyze, and provide insights into effective data mixes, leading up to a significant 21.03% (and 11.3% on average) ICL performance boost over the strongest VLM baselines and a variety of ICL benchmarks. We also contribute new benchmarks for ICL evaluation in VLMs and discuss their advantages over the prior art.
- Abstract(参考訳): 人間の言語を真に理解できる大規模言語モデル(LLM)の出現に触発されて、LLMによって他の非言語的モダリティを"理解可能"に整合させることで、そのサンプルをLLM(デコーダ)入力ストリームに直接入力される組込み言語のようなトークンのシーケンスに変換することによって、大きな進歩を遂げた。
しかし、これまでのところ、中核的なLLM機能の1つであるICL(In-Context Learning)能力を新興のVLMに転送(および評価)することや、VLMを所望の下流タスクや出力構造に誘導するために、インコンテキストイメージ+テキストのデモを使用するように注意が向けられている。
本研究は、ICL命令に従うための最先端のVLMの能力を詳細に分析し、それらがやや欠如していることを発見した。
大規模な混合モダリティ事前学習を行ったモデルでさえも、直接ICL命令のチューニングが欠如していることから、複数画像から有用なコンテキストを消費するために)インターリーブされた画像とテキスト情報を利用するように暗黙的にガイドされている。
この予想をテストするために、我々は、ICLサポート、方法論、カリキュラムで共通のVLMアライメントフレームワークを拡張するための、シンプルながら驚くほど効果的な戦略を提案する。
我々は、有効なデータミックスに関する洞察を探索し、分析し、提供することで、21.03%(および平均で11.3%)のICLパフォーマンスが、最強のVLMベースラインと様々なICLベンチマークよりも向上する。
また、VLMにおけるICL評価のための新しいベンチマークも提供し、先行技術に対するその優位性について論じる。
関連論文リスト
- VL-ICL Bench: The Devil in the Details of Benchmarking Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Understanding and Improving In-Context Learning on Vision-language
Models [42.7212469140844]
In-context Learning (ICL) on large language model (LLMs) に大きな注目を集めており、この手法は視覚言語モデル (VLMs) に適用できる。
本研究では,視覚情報と言語情報の両方の重要性について検討する。
我々は、Mixed Modality In-Context Example Selection (MMICES)と呼ばれるシンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-29T19:08:11Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - Link-Context Learning for Multimodal LLMs [40.923816691928536]
リンクコンテキスト学習(LCL)はMLLMの学習能力を高めるために「原因と効果からの推論」を強調する。
LCLは、アナログだけでなく、データポイント間の因果関係も識別するようモデルに導出する。
本手法の評価を容易にするため,ISEKAIデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-15T17:33:24Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。