論文の概要: From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning
- arxiv url: http://arxiv.org/abs/2407.00902v2
- Date: Fri, 18 Oct 2024 04:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:44.242858
- Title: From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning
- Title(参考訳): イントロスペクションからベストプラクティスへ:マルチモーダルインテクスト学習における実証の原理的分析
- Authors: Nan Xu, Fei Wang, Sheng Zhang, Hoifung Poon, Muhao Chen,
- Abstract要約: マルチモーダル ICL では,タスクごとにモダリティが異なることが示される。
タスク固有のモダリティの影響に導かれ、ICL性能を高めるためのモダリティ駆動型実証戦略を推奨する。
- 参考スコア(独自算出の注目度): 47.82447085244952
- License:
- Abstract: Motivated by in-context learning (ICL) capabilities of Large Language models (LLMs), multimodal LLMs with additional visual modality are also exhibited with similar ICL abilities when multiple image-text pairs are provided as demonstrations. However, relatively less work has been done to investigate the principles behind how and why multimodal ICL works. We conduct a systematic and principled evaluation of multimodal ICL for models of different scales on a broad spectrum of new yet critical tasks. Through perturbations over different modality information, we show that modalities matter differently across tasks in multimodal ICL. Guided by task-specific modality impact, we recommend modality-driven demonstration strategies to boost ICL performance. We also find that models may follow inductive biases from multimodal ICL even if they are rarely seen in or contradict semantic priors from pretraining data. Our principled analysis provides a comprehensive way of understanding the role of demonstrations in multimodal in-context learning, and sheds light on effectively improving multimodal ICL on a wide range of tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)のインコンテキスト学習(ICL)機能により、複数の画像テキストペアをデモとして提供する場合、視覚的モダリティを付加したマルチモーダルLLMも同様のICL能力で展示される。
しかし、マルチモーダル ICL の動作の背景にある原理を調査する作業は、比較的少ない。
我々は,新しい重要なタスクの幅広い範囲において,異なるスケールのモデルに対するマルチモーダル ICL の体系的および原則的評価を行う。
異なるモーダル情報に対する摂動を通して、モーダル性はマルチモーダルICLのタスク間で異なる意味を持つことを示す。
タスク固有のモダリティの影響に導かれ、ICL性能を高めるためのモダリティ駆動型実証戦略を推奨する。
また、事前学習データにはほとんど見つからないり、矛盾するセマンティックな先行データであっても、モデルがマルチモーダルICLからの帰納バイアスに従うことも見いだされる。
本原理分析は,マルチモーダル・イン・コンテクスト学習における実演の役割を包括的に理解し,多モーダル ICL を幅広いタスクで効果的に改善することに重点を置いている。
関連論文リスト
- Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z) - Understanding and Improving In-Context Learning on Vision-language
Models [42.7212469140844]
In-context Learning (ICL) on large language model (LLMs) に大きな注目を集めており、この手法は視覚言語モデル (VLMs) に適用できる。
本研究では,視覚情報と言語情報の両方の重要性について検討する。
我々は、Mixed Modality In-Context Example Selection (MMICES)と呼ばれるシンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-29T19:08:11Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。