論文の概要: LMTuner: An user-friendly and highly-integrable Training Framework for
fine-tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2308.10252v1
- Date: Sun, 20 Aug 2023 12:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:52:51.651234
- Title: LMTuner: An user-friendly and highly-integrable Training Framework for
fine-tuning Large Language Models
- Title(参考訳): lmtuner: 大きな言語モデルを微調整するための、ユーザフレンドリーで高機能なトレーニングフレームワーク
- Authors: Yixuan Weng, Zhiqi Wang, Huanxuan Liao, Shizhu He, Shengping Liu, Kang
Liu, Jun Zhao
- Abstract要約: LMTunerは、大規模言語モデルをトレーニングするための、非常に使いやすく、統合可能でスケーラブルなシステムである。
このモジュールは、Interaction、Training、Inference Modulesという3つの主要なモジュールから構成される。
注目すべきは、初心者でも5分以内に大きな言語モデルのトレーニングを開始できることだ。
- 参考スコア(独自算出の注目度): 30.34245317327197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the burgeoning development in the realm of large language models (LLMs),
the demand for efficient incremental training tailored to specific industries
and domains continues to increase. Currently, the predominantly employed
frameworks lack modular design, it often takes a lot of coding work to
kickstart the training of LLM. To address this, we present "LMTuner", a highly
usable, integrable, and scalable system for training LLMs expeditiously and
with minimal user-input. LMTuner comprises three main modules - the
Interaction, Training, and Inference Modules. We advocate that LMTuner's
usability and integrality alleviate the complexities in training large language
models. Remarkably, even a novice user could commence training large language
models within five minutes. Furthermore, it integrates DeepSpeed frameworks and
supports Efficient Fine-Tuning methodologies like Low Rank Adaptation (LoRA),
Quantized LoRA (QLoRA), etc., enabling the training of language models scaling
from 300M to a whopping 130B parameters using a single server. The LMTuner's
homepage (https://wengsyx.github.io/LMTuner/)and screencast video
(https://youtu.be/nsXmWOmN3rE) are now publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)の分野での急成長に伴い、特定の産業やドメインに合わせた効率的なインクリメンタルトレーニングの需要が増加し続けている。
現在、主に採用されているフレームワークにはモジュラ設計が欠けているため、llmのトレーニングを開始するには多くのコーディング作業が必要になる。
そこで本稿では,LDMを迅速かつ最小限のユーザインプットでトレーニングするための,高度に使いやすく,統合可能でスケーラブルなシステムであるLMTunerを提案する。
LMTunerは、Interaction, Training, Inference Modulesという3つの主要なモジュールから構成されている。
我々は,LMTunerのユーザビリティと積分性が,大規模言語モデルの訓練における複雑さを軽減することを提唱する。
注目すべきは、初心者でも5分以内に大きな言語モデルのトレーニングを開始できることだ。
さらに、DeepSpeedフレームワークを統合し、LoRA(Loor Rank Adaptation)やQuantized LoRA(QLoRA)などの効率的なファインチューニング方法論をサポートし、単一のサーバを使用して3億から130Bのパラメータをスケールする言語モデルのトレーニングを可能にする。
LMTunerのホームページ(https://wengsyx.github.io/LMTuner/)とスクリーンキャストビデオ(https://youtu.be/nsXmWOmN3rE)が公開されている。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MAMMOTH: Massively Multilingual Modular Open Translation @ Helsinki [46.62437145754009]
MAMMOTHツールキットは,大規模な多言語モジュール型機械翻訳システムを大規模に学習するためのフレームワークである。
A100およびV100 NVIDIA GPUのクラスタ間で効率を実証し、設計哲学と今後の情報計画について議論する。
論文 参考訳(メタデータ) (2024-03-12T11:32:30Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models [31.121714473817793]
ファンデーションモデルは、従来のアプローチをはるかに超越した、一般的な人間レベルのインテリジェンスを達成するための優れた能力を示してきた。
ほとんどの基礎モデルの重大な欠点は、特殊ドメインやタスク固有のアプリケーションのパフォーマンスにある。
本稿では,一般基礎モデルのドメイン・タスク・アウェア・ファインタニングを簡略化することを目的としたLMFlowを紹介する。
論文 参考訳(メタデータ) (2023-06-21T17:58:25Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。