論文の概要: SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning
- arxiv url: http://arxiv.org/abs/2408.05517v3
- Date: Mon, 19 Aug 2024 03:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:45:42.822173
- Title: SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning
- Title(参考訳): SWIFT:ファインチューニングのためのスケーラブル軽量インフラストラクチャ
- Authors: Yuze Zhao, Jintao Huang, Jinghan Hu, Xingjun Wang, Yunlin Mao, Daoze Zhang, Zeyinzi Jiang, Zhikai Wu, Baole Ai, Ang Wang, Wenmeng Zhou, Yingda Chen,
- Abstract要約: Large Language Models (LLM) と Multi-modal Large Language Models (MLLM) は、注意に基づくトランスフォーマーアーキテクチャを利用している。
SWIFTは、大型モデルのためのカスタマイズ可能なワンストップインフラストラクチャである。
SWIFTでカスタマイズされたデータセットをトレーニングすることで、ToolBenchのリーダボードに注目すべき改善が達成できることを示す。
- 参考スコア(独自算出の注目度): 4.173156963843178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent development in Large Language Models (LLMs) and Multi-modal Large Language Models (MLLMs) have leverage Attention-based Transformer architectures and achieved superior performance and generalization capabilities. They have since covered extensive areas of traditional learning tasks. For instance, text-based tasks such as text-classification and sequence-labeling, as well as multi-modal tasks like Visual Question Answering (VQA) and Optical Character Recognition (OCR), which were previously addressed using different models, can now be tackled based on one foundation model. Consequently, the training and lightweight fine-tuning of LLMs and MLLMs, especially those based on Transformer architecture, has become particularly important. In recognition of these overwhelming needs, we develop SWIFT, a customizable one-stop infrastructure for large models. With support of over $300+$ LLMs and $50+$ MLLMs, SWIFT stands as the open-source framework that provide the most comprehensive support for fine-tuning large models. In particular, it is the first training framework that provides systematic support for MLLMs. In addition to the core functionalities of fine-tuning, SWIFT also integrates post-training processes such as inference, evaluation, and model quantization, to facilitate fast adoptions of large models in various application scenarios. With a systematic integration of various training techniques, SWIFT offers helpful utilities such as benchmark comparisons among different training techniques for large models. For fine-tuning models specialized in agent framework, we show that notable improvements on the ToolBench leader-board can be achieved by training with customized dataset on SWIFT, with an increase of 5.2%-21.8% in the Act.EM metric over various baseline models, a reduction in hallucination by 1.6%-14.1%, and an average performance improvement of 8%-17%.
- Abstract(参考訳): 近年のLLM(Large Language Models)とMLLM(Multi-modal Large Language Models)は,アテンションベースのトランスフォーマーアーキテクチャを活用し,優れた性能と一般化を実現している。
それ以来、彼らは伝統的な学習タスクの幅広い領域をカバーしてきた。
例えば、テキスト分類やシーケンスラベリングといったテキストベースのタスクや、以前は異なるモデルを使用して対処されていたVisual Question Answering(VQA)やOCR(OCR)といったマルチモーダルタスクは、1つの基礎モデルに基づいて取り組めるようになった。
その結果,特に Transformer アーキテクチャに基づく LLM と MLLM の訓練と軽量な微調整が特に重要になっている。
これらの圧倒的なニーズを認識して、大型モデルのためのカスタマイズ可能なワンストップインフラストラクチャであるSWIFTを開発する。
300ドル以上のLLMと50ドル以上のMLLMをサポートするSWIFTは、大規模なモデルを微調整するための最も包括的なサポートを提供するオープンソースフレームワークである。
特に、MLLMの体系的なサポートを提供する最初のトレーニングフレームワークである。
微調整のコア機能に加えて、SWIFTは推論、評価、モデル量子化といったポストトレーニングプロセスを統合し、様々なアプリケーションシナリオにおける大規模モデルの迅速な採用を促進する。
様々なトレーニングテクニックを体系的に統合することにより、SWIFTは大規模モデルの異なるトレーニングテクニック間のベンチマーク比較のような有用なユーティリティを提供する。
エージェントフレームワークに特化した微調整モデルでは、ToolBenchリーダーボードの顕著な改善は、SWIFT上でカスタマイズされたデータセットでトレーニングすることで達成できることを示し、Act.EMでは、様々なベースラインモデルに対する5.2%-21.8%、幻覚の1.6%-14.1%、平均的なパフォーマンス改善は8%-17%である。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MLLM-FL: Multimodal Large Language Model Assisted Federated Learning on Heterogeneous and Long-tailed Data [25.45278447786954]
MLLM-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。
当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文 参考訳(メタデータ) (2024-09-09T21:04:16Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models [45.51085356985464]
大規模言語モデル(LLM)は、様々な起源から派生した多種多様なデータセットに基づいて微調整されるのが一般的である。
MoSは、微調整プロセス中に自動的にデータ使用量を最適化することを学ぶ。
MoSpecは、特定の目的のために様々なデータセットのユーティリティを利用する。
論文 参考訳(メタデータ) (2024-06-13T05:01:28Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent [2.3967405016776384]
Jack of All Trades (JAT) は、シーケンシャルな意思決定タスクに最適化されたユニークな設計のトランスフォーマーベースのモデルである。
JATは、その種の最初のモデルはhttps://huggingface.co/jat-project/jatで完全にオープンソース化されている。
論文 参考訳(メタデータ) (2024-02-15T10:01:55Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。