論文の概要: Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning
- arxiv url: http://arxiv.org/abs/2406.15334v2
- Date: Tue, 26 Nov 2024 19:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:50.901757
- Title: Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning
- Title(参考訳): マルチモーダルタスクベクトルによるマルチモーダルインコンテキスト学習の実現
- Authors: Brandon Huang, Chancharik Mitra, Assaf Arbelle, Leonid Karlinsky, Trevor Darrell, Roei Herzig,
- Abstract要約: コンテキスト内学習には多くの例があるが、新しいタスクを学ぶには有望だ。
基本的には事前トレーニング時に設定されたモデルのコンテキスト長によって制限される。
これは、微調整なしで多くのショットを少ないトークンに圧縮するマルチモーダル法の必要性を動機付けている。
- 参考スコア(独自算出の注目度): 54.74986983905282
- License:
- Abstract: The recent success of interleaved Large Multimodal Models (LMMs) in few-shot learning suggests that in-context learning (ICL) with many examples can be promising for learning new tasks. However, this many-shot multimodal ICL setting has one crucial problem: it is fundamentally limited by the model's context length set at pretraining. The problem is especially prominent in the multimodal domain, which processes both text and images, requiring additional tokens. This motivates the need for a multimodal method to compress many shots into fewer tokens without finetuning. In this work, we enable LMMs to perform multimodal, many-shot in-context learning by leveraging Multimodal Task Vectors (MTV) -- compact implicit representations of in-context examples compressed in the model's attention heads. Specifically, we first demonstrate the existence of such MTV in LMMs and then leverage these extracted MTV to enable many-shot in-context learning for various vision-and-language tasks. Our experiments suggest that MTV can scale in performance with the number of compressed shots and generalize to similar out-of-domain tasks without additional context length for inference. Code: https://github.com/Brandon3964/MultiModal-Task-Vector
- Abstract(参考訳): 近年のインターリーブ型大規模マルチモーダルモデル(LMM)の成功は,多くの例を取り入れたインコンテキストラーニング(ICL)が新たなタスクの学習に有効であることを示唆している。
しかし、このマルチモーダル ICL 設定には重要な問題があり、事前訓練時に設定されたモデルのコンテキスト長によって基本的に制限されている。
この問題は、テキストと画像の両方を処理するマルチモーダル領域において特に顕著であり、追加のトークンを必要とする。
これは、微調整なしで多くのショットを少ないトークンに圧縮するマルチモーダル法の必要性を動機付けている。
本研究では,マルチモーダルタスクベクトル (MTV) を利用したマルチモーダル・マルチショット・インコンテキスト学習を実現する。
具体的には、まず、LMMにおけるこのようなMTVの存在を実証し、次に抽出したMTVを活用して、様々な視覚・言語タスクのための多視点インコンテクスト学習を可能にする。
提案実験により,MTVは圧縮されたショット数で性能を向上し,ドメイン外タスクと類似のタスクを推論のための文脈長を伴わずに一般化できることが示唆された。
コード:https://github.com/Brandon3964/MultiModal-Task-Vector
関連論文リスト
- SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization [49.931663904599205]
研究者は、インコンテキスト学習機能を備えた大規模マルチモーダルモデルを開発する技術を開発した。
既存のLMMは、マルチモーダルなデモンストレーションで視覚的コンテキストを効果的に活用せず、単にテキストパターンに従う。
本稿では,マルチモーダルな実演構築の伝統的なパラダイムを破るために,記号記述直接選好最適化(SymDPO)を提案する。
論文 参考訳(メタデータ) (2024-11-17T08:29:14Z) - Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models [15.622219099903067]
マルチモーダル入力の順序を変えることで、モデルの性能が高度な性能とランダムな推測の間で変動することを発見した。
この現象は、単一のモダリティ(テキストのみまたは画像のみ)と混合モダリティ(画像-テキスト-ペア)の両方の文脈に存在する。
MLLM評価における順序バイアスに対処する新しい指標である位置不変精度(PIA)を提案する。
論文 参考訳(メタデータ) (2024-10-22T13:05:11Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。