論文の概要: CaMML: Context-Aware Multimodal Learner for Large Models
- arxiv url: http://arxiv.org/abs/2401.03149v2
- Date: Wed, 21 Feb 2024 04:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:26:41.717779
- Title: CaMML: Context-Aware Multimodal Learner for Large Models
- Title(参考訳): CaMML:大規模モデルのためのコンテキスト対応マルチモーダル学習システム
- Authors: Yixin Chen, Shuai Zhang, Boran Han, Tong He, Bo Li
- Abstract要約: 大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を導入する。
CaMMLは、マルチモーダルなコンテキストサンプルを大きなモデルにシームレスに統合するように設計されている。
CaMMLをベースとした2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。
- 参考スコア(独自算出の注目度): 17.49545692638154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce Context-Aware MultiModal Learner (CaMML), for
tuning large multimodal models (LMMs). CaMML, a lightweight module, is crafted
to seamlessly integrate multimodal contextual samples into large models,
thereby empowering the model to derive knowledge from analogous,
domain-specific, up-to-date information and make grounded inferences.
Importantly, CaMML is highly scalable and can efficiently handle lengthy
multimodal context examples owing to its hierarchical design. Based on CaMML,
we have developed two multimodal models, CaMML-7B and CaMML-13B, that have
shown exceptional performance across an array of benchmark datasets for
multimodal tasks. Remarkably, CaMML-13B achieves the state-of-the-art
performance on over ten widely recognized multimodal benchmark datasets,
surpassing LLaVA-1.5 (13B) with a noticeable margin, without integration of any
external resources. Moreover, we have conducted extensive ablative studies to
inspect the inner workings of CaMML and performed qualitative analyses to
showcase its effectiveness in handling real-world challenging cases.
- Abstract(参考訳): 本研究では,大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を提案する。
軽量モジュールであるCaMMLは、マルチモーダルなコンテキストサンプルを大規模モデルにシームレスに統合することにより、類似したドメイン固有の最新の情報から知識を導き出し、基盤となる推論を行う。
重要なことは、CaMMLは高度にスケーラブルであり、階層設計のため、長いマルチモーダルコンテキストの例を効率的に扱うことができる。
CaMMLに基づく2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。
注目すべきなのは、CaMML-13Bは、広く認識されている10以上のマルチモーダルベンチマークデータセット上で、外部リソースを統合することなく、顕著なマージンでLLaVA-1.5 (13B)を超える最先端のパフォーマンスを達成することだ。
さらに,CaMMLの内部動作を調べるための広範囲なアブレーション研究を行い,実世界の課題に対処するための質的分析を行った。
関連論文リスト
- VL-Mamba: Exploring State Space Models for Multimodal Learning [22.701028299912398]
本研究では,状態空間モデルに基づく多モーダル大規模言語モデルであるVL-Mambaを提案する。
具体的には、まず、LLamaやVicunaのようなトランスフォーマーベースのバックボーン言語モデルを、事前訓練されたMamba言語モデルに置き換える。
論文 参考訳(メタデータ) (2024-03-20T13:48:50Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [30.284100018891397]
MMICT(Multi-Modal In-Context Tuning)は、マルチモーダル微調整を促進する新しいパラダイムである。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。