論文の概要: Efficient Multimodal Learning from Data-centric Perspective
- arxiv url: http://arxiv.org/abs/2402.11530v1
- Date: Sun, 18 Feb 2024 10:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:32:44.086779
- Title: Efficient Multimodal Learning from Data-centric Perspective
- Title(参考訳): データ中心の観点からの効率的なマルチモーダル学習
- Authors: Muyang He, Yexin Liu, Boya Wu, Jianhao Yuan, Yueze Wang, Tiejun Huang,
Bo Zhao
- Abstract要約: 本稿では, フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し, 凝縮学習データから効率的なマルチモーダル学習を実現する。
注目すべきは、Bunny-3Bは最先端の大規模なMLLM、特にLLaVA-v1.5-13Bを複数のベンチマークで上回ることです。
- 参考スコア(独自算出の注目度): 22.429612780327282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated notable
capabilities in general visual understanding and reasoning tasks. However,
their deployment is hindered by substantial computational costs in both
training and inference, limiting accessibility to the broader research and user
communities. A straightforward solution is to leverage smaller pre-trained
vision and language models, which inevitably causes significant performance
drop. In this paper, we demonstrate the possibility to beat the scaling law and
train a smaller but better MLLM by exploring more informative training data.
Specifically, we introduce Bunny, a family of lightweight MLLMs with flexible
vision and language backbones for efficient multimodal learning from condensed
training data. Remarkably, our Bunny-3B outperforms the state-of-the-art large
MLLMs, especially LLaVA-v1.5-13B, on multiple benchmarks. The code, models and
data can be found in https://github.com/BAAI-DCAI/Bunny.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、一般的な視覚的理解と推論タスクにおいて顕著な機能を示す。
しかし、それらのデプロイメントは、トレーニングと推論の両方において相当な計算コストによって妨げられ、より広範な研究とユーザコミュニティへのアクセシビリティを制限する。
簡単な解決策は、より小さな事前学習されたビジョンと言語モデルを活用することだ。
本稿では,より情報的なトレーニングデータを探索することにより,スケーリング法を破り,より小さいが優れたMLLMを訓練する可能性を実証する。
具体的には、フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し、凝縮学習データから効率的なマルチモーダル学習を実現する。
注目すべきは、Bunny-3Bは最先端の大規模なMLLM、特にLLaVA-v1.5-13Bを複数のベンチマークで上回ることです。
コード、モデル、データはhttps://github.com/BAAI-DCAI/Bunny.comにある。
関連論文リスト
- MiniPLM: Knowledge Distillation for Pre-Training Language Models [109.83741809808483]
MiniPLMは、学生言語モデルを事前学習するためのKDフレームワークである。
効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LMに対するKDを訓練時間のコストを伴わずに行えるようにした。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
論文 参考訳(メタデータ) (2024-10-22T17:40:32Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning [25.45278447786954]
MLLM-LLaVA-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。
当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文 参考訳(メタデータ) (2024-09-09T21:04:16Z) - Are Bigger Encoders Always Better in Vision Large Models? [21.797332686137203]
マルチモーダルな大言語モデル (MLLM) は、現実世界の応用において大きな可能性を示している。
現在の主流パラダイム下での視覚言語モデル(VLM)のスケーリング傾向は、広く研究されていない。
我々は,異なるエンコーダサイズと大言語モデル(LLM)サイズを用いて,MLLMの事前学習段階の実験を行う。
論文 参考訳(メタデータ) (2024-08-01T15:05:42Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。