Fugu-MT 論文翻訳(概要): Towards Multimodal In-Context Learning for Vision & Language Models

論文の概要: Towards Multimodal In-Context Learning for Vision & Language Models

arxiv url: http://arxiv.org/abs/2403.12736v2
Date: Wed, 17 Jul 2024 08:13:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 22:29:24.680784
Title: Towards Multimodal In-Context Learning for Vision & Language Models
Title（参考訳）: 視覚・言語モデルのためのマルチモーダル・インコンテキスト学習を目指して
Authors: Sivan Doveh, Shaked Perek, M. Jehanzeb Mirza, Wei Lin, Amit Alfassy, Assaf Arbelle, Shimon Ullman, Leonid Karlinsky,
Abstract要約: VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
参考スコア（独自算出の注目度）: 21.69457980865084
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art Vision-Language Models (VLMs) ground the vision and the language modality primarily via projecting the vision tokens from the encoder to language-like tokens, which are directly fed to the Large Language Model (LLM) decoder. While these models have shown unprecedented performance in many downstream zero-shot tasks (eg image captioning, question answers, etc), still little emphasis has been put on transferring one of the core LLM capability of In-Context Learning (ICL). ICL is the ability of a model to reason about a downstream task with a few examples demonstrations embedded in the prompt. In this work, through extensive evaluations, we find that the state-of-the-art VLMs somewhat lack the ability to follow ICL instructions. In particular, we discover that even models that underwent large-scale mixed modality pre-training and were implicitly guided to make use of interleaved image and text information (intended to consume helpful context from multiple images) under-perform when prompted with few-shot demonstrations (in an ICL way), likely due to their lack of direct ICL instruction tuning. To enhance the ICL abilities of the present VLM, we propose a simple yet surprisingly effective multi-turn curriculum-based learning methodology with effective data mixes, leading up to a significant 21.03% (and 11.3% on average) ICL performance boost over the strongest VLM baselines and a variety of ICL benchmarks. Furthermore, we also contribute new benchmarks for ICL evaluation in VLMs and discuss their advantages over the prior art.
Abstract（参考訳）: State-of-the-the-art Vision-Language Models (VLM) は、主にエンコーダから言語に似たトークンへビジョントークンを投影することで、ビジョンと言語モダリティを基礎にしている。これらのモデルは、多くのダウンストリームゼロショットタスク(イメージキャプション、質問応答など)において前例のないパフォーマンスを示しているが、インコンテキスト学習(ICL)のコアLLM能力の1つを転送することには、まだほとんど重点を置いていない。 ICLは、モデルが下流のタスクを推論する機能であり、いくつかの例がプロンプトに埋め込まれている。本研究では、広範囲な評価により、最先端のVLMにはICL命令に従う能力が欠如していることが判明した。特に,大規模な混合モダリティ事前学習を行ったモデルであっても,直接ICL命令のチューニングが欠如していることから,インタリーブド画像とテキスト情報(複数画像から有用なコンテキストを消費するために意図された)を低性能化するために暗黙的にガイドされていることが判明した。現在のVLMのICL能力を高めるために、実効データ混合を用いた単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案し、最強のVLMベースラインと多種多様なICLベンチマークに対して、21.03%(および平均11.3%)のICL性能が向上した。さらに、VLMにおけるICL評価のための新しいベンチマークも提供し、先行技術に対するその優位性について論じる。

関連論文リスト

True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文参考訳（メタデータ） (2025-07-21T17:08:18Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
Focused Large Language Models are Stable Many-Shot Learners [18.783939647966776]
In-Context Learning (ICL)により、大規模な言語モデル(LLM)がデモから学習することで、迅速なタスク適応を実現することができる。重要でないコンテンツから注意を逸らすことを避けるために,自明なフィルタリングを行う訓練不要なFocusICLを提案する。その結果,FocusICLはバニラICLよりも平均5.2%の性能向上を実現し,多くの実演に匹敵する性能を示した。
論文参考訳（メタデータ） (2024-08-26T02:53:24Z)
Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文参考訳（メタデータ） (2024-08-23T10:10:01Z)
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文参考訳（メタデータ） (2024-07-18T18:39:54Z)
Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文参考訳（メタデータ） (2024-07-17T11:26:47Z)
ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。 LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-21T08:06:10Z)
VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文参考訳（メタデータ） (2024-03-19T21:31:56Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
Understanding and Improving In-Context Learning on Vision-language Models [42.7212469140844]
In-context Learning (ICL) on large language model (LLMs) に大きな注目を集めており、この手法は視覚言語モデル (VLMs) に適用できる。本研究では,視覚情報と言語情報の両方の重要性について検討する。我々は、Mixed Modality In-Context Example Selection (MMICES)と呼ばれるシンプルだが効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-11-29T19:08:11Z)
Link-Context Learning for Multimodal LLMs [40.923816691928536]
リンクコンテキスト学習(LCL)はMLLMの学習能力を高めるために「原因と効果からの推論」を強調する。 LCLは、アナログだけでなく、データポイント間の因果関係も識別するようモデルに導出する。本手法の評価を容易にするため,ISEKAIデータセットを提案する。
論文参考訳（メタデータ） (2023-08-15T17:33:24Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。