論文の概要: Efficient Multimodal Learning from Data-centric Perspective
- arxiv url: http://arxiv.org/abs/2402.11530v3
- Date: Mon, 22 Jul 2024 09:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 02:40:58.452284
- Title: Efficient Multimodal Learning from Data-centric Perspective
- Title(参考訳): データ中心の観点からの効率的なマルチモーダル学習
- Authors: Muyang He, Yexin Liu, Boya Wu, Jianhao Yuan, Yueze Wang, Tiejun Huang, Bo Zhao,
- Abstract要約: 効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
- 参考スコア(独自算出の注目度): 21.35857180519653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated notable capabilities in general visual understanding and reasoning tasks. However, their deployment is hindered by substantial computational costs in both training and inference, limiting accessibility to the broader research and user communities. A straightforward solution is to leverage smaller pre-trained vision and language models, which inevitably cause significant performance drops. In this paper, we demonstrate the possibility of training a smaller but better MLLM with high-quality training data. Specifically, we introduce Bunny, a family of lightweight MLLMs with flexible vision and language backbones for efficient multimodal learning from selected training data. Experiments show that our Bunny-4B/8B outperforms the state-of-the-art large MLLMs on multiple benchmarks. We expect that this work can provide the community with a clean and flexible open-source tool for further research and development. The code, models, and data can be found in https://github.com/BAAI-DCAI/Bunny.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、一般的な視覚的理解と推論タスクにおいて顕著な機能を示す。
しかし、それらのデプロイメントは、トレーニングと推論の両方において相当な計算コストによって妨げられ、より広範な研究とユーザコミュニティへのアクセシビリティが制限される。
簡単な解決策は、トレーニング済みのより小さなビジョンと言語モデルを活用することだ。
本稿では,より小型で優れたMLLMを高品質なトレーニングデータでトレーニングする可能性を実証する。
具体的には、フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し、選択したトレーニングデータから効率的なマルチモーダル学習を実現する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
この作業がコミュニティに、さらなる研究と開発のためのクリーンで柔軟なオープンソースツールを提供することを期待しています。
コード、モデル、データはhttps://github.com/BAAI-DCAI/Bunny.comにある。
関連論文リスト
- Feedback-aligned Mixed LLMs for Machine Language-Molecule Translation [11.778576032848482]
言語-分子自動翻訳の課題に焦点をあてる。
私たちは、クロスモーダルな設定で人間中心の最適化アルゴリズムを最初に使用しました。
使用可能なデータの10%のみを使用して実験を行い、記憶効果を緩和する。
論文 参考訳(メタデータ) (2024-05-22T20:40:53Z) - The Future of Large Language Model Pre-training is Federated [15.237418036900582]
フェデレーション学習は、地球のデータと計算資源の大部分を解き放つ可能性がある。
我々は、この新たなトレーニングパラダイムの調査と開発を可能にする、Photonと呼ばれるスケーラブルなデプロイメントシステムを提案する。
我々は、プライベートなデータソースや計算リソースとのコラボレーションに関心のある組織がPhotonを利用できることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:27:52Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [18.954681684239358]
本稿では,様々な視覚言語タスクを対象とした効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。
言語モデル280億のパラメータで、TinyGPT-VはVQAと画像推論タスクにおいて、より大きなパラメータに匹敵する結果を達成している。
論文 参考訳(メタデータ) (2023-12-28T07:11:41Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。