Fugu-MT 論文翻訳(概要): Efficient Multimodal Learning from Data-centric Perspective

論文の概要: Efficient Multimodal Learning from Data-centric Perspective

arxiv url: http://arxiv.org/abs/2402.11530v1
Date: Sun, 18 Feb 2024 10:09:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 20:32:44.086779
Title: Efficient Multimodal Learning from Data-centric Perspective
Title（参考訳）: データ中心の観点からの効率的なマルチモーダル学習
Authors: Muyang He, Yexin Liu, Boya Wu, Jianhao Yuan, Yueze Wang, Tiejun Huang, Bo Zhao
Abstract要約: 本稿では, フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し, 凝縮学習データから効率的なマルチモーダル学習を実現する。注目すべきは、Bunny-3Bは最先端の大規模なMLLM、特にLLaVA-v1.5-13Bを複数のベンチマークで上回ることです。
参考スコア（独自算出の注目度）: 22.429612780327282
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have demonstrated notable capabilities in general visual understanding and reasoning tasks. However, their deployment is hindered by substantial computational costs in both training and inference, limiting accessibility to the broader research and user communities. A straightforward solution is to leverage smaller pre-trained vision and language models, which inevitably causes significant performance drop. In this paper, we demonstrate the possibility to beat the scaling law and train a smaller but better MLLM by exploring more informative training data. Specifically, we introduce Bunny, a family of lightweight MLLMs with flexible vision and language backbones for efficient multimodal learning from condensed training data. Remarkably, our Bunny-3B outperforms the state-of-the-art large MLLMs, especially LLaVA-v1.5-13B, on multiple benchmarks. The code, models and data can be found in https://github.com/BAAI-DCAI/Bunny.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、一般的な視覚的理解と推論タスクにおいて顕著な機能を示す。しかし、それらのデプロイメントは、トレーニングと推論の両方において相当な計算コストによって妨げられ、より広範な研究とユーザコミュニティへのアクセシビリティを制限する。簡単な解決策は、より小さな事前学習されたビジョンと言語モデルを活用することだ。本稿では,より情報的なトレーニングデータを探索することにより,スケーリング法を破り,より小さいが優れたMLLMを訓練する可能性を実証する。具体的には、フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し、凝縮学習データから効率的なマルチモーダル学習を実現する。注目すべきは、Bunny-3Bは最先端の大規模なMLLM、特にLLaVA-v1.5-13Bを複数のベンチマークで上回ることです。コード、モデル、データはhttps://github.com/BAAI-DCAI/Bunny.comにある。

関連論文リスト

Capybara-OMNI: An Efficient Paradigm for Building Omni-Modal Language Models [20.415143052087654]
カピバラオミニ(Capybara-OMNI)は、MLLMの軽量で効率的な運転方法である。フレームワーク設計、データ構築、およびトレーニングレシピの詳細を提示する。以上の結果から,競争性能を向上するMLLMを効率的に構築できることが示唆された。
論文参考訳（メタデータ） (2025-04-10T07:08:53Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
MiniPLM: Knowledge Distillation for Pre-Training Language Models [109.83741809808483]
MiniPLMは、学生言語モデルを事前学習するためのKDフレームワークである。効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LMに対するKDを訓練時間のコストを伴わずに行えるようにした。柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
論文参考訳（メタデータ） (2024-10-22T17:40:32Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
MLLM-FL: Multimodal Large Language Model Assisted Federated Learning on Heterogeneous and Long-tailed Data [25.45278447786954]
MLLM-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文参考訳（メタデータ） (2024-09-09T21:04:16Z)
Are Bigger Encoders Always Better in Vision Large Models? [21.797332686137203]
マルチモーダルな大言語モデル (MLLM) は、現実世界の応用において大きな可能性を示している。現在の主流パラダイム下での視覚言語モデル(VLM)のスケーリング傾向は、広く研究されていない。我々は,異なるエンコーダサイズと大言語モデル(LLM)サイズを用いて,MLLMの事前学習段階の実験を行う。
論文参考訳（メタデータ） (2024-08-01T15:05:42Z)
Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文参考訳（メタデータ） (2024-05-17T12:37:10Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。