論文の概要: A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on
Chinese Instruction Data for Instruction Following Large Language Model
- arxiv url: http://arxiv.org/abs/2304.08109v1
- Date: Mon, 17 Apr 2023 09:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 15:56:23.844243
- Title: A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on
Chinese Instruction Data for Instruction Following Large Language Model
- Title(参考訳): 大言語モデルに基づく中国語指導データのフルパラメータとloraに基づく微調整の比較検討
- Authors: Xianghui Sun, Yunjie Ji, Baochang Ma, Xiangang Li
- Abstract要約: 基礎モデルの選択、トレーニングデータセットのスケール、学習可能なパラメータ量、モデルのトレーニングコストは、すべて重要な要素である。
論文の結果の再現を容易にするため、データセット、モデル、コードを公開します。
- 参考スコア(独自算出の注目度): 8.21938165599387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the instruction-tuning of large language models is a crucial area
of research in the field of natural language processing. Due to resource and
cost limitations, several researchers have employed parameter-efficient tuning
techniques, such as LoRA, for instruction tuning, and have obtained encouraging
results In comparison to full-parameter fine-tuning, LoRA-based tuning
demonstrates salient benefits in terms of training costs. In this study, we
undertook experimental comparisons between full-parameter fine-tuning and
LoRA-based tuning methods, utilizing LLaMA as the base model. The experimental
results show that the selection of the foundational model, training dataset
scale, learnable parameter quantity, and model training cost are all important
factors. We hope that the experimental conclusions of this paper can provide
inspiration for training large language models, especially in the field of
Chinese, and help researchers find a better trade-off strategy between training
cost and model performance. To facilitate the reproduction of the paper's
results, the dataset, model and code will be released.
- Abstract(参考訳): 近年,自然言語処理の分野では,大規模言語モデルのインストラクションチューニングが重要な研究分野となっている。
リソースとコストの制限のため、いくつかの研究者は命令チューニングのためにloraのようなパラメータ効率の良いチューニング技術を採用し、フルパラメータの微調整と比較して奨励的な結果を得た。
本研究では,LLaMAをベースモデルとして,全パラメータ微調整法とLoRAに基づくチューニング法の比較を行った。
実験の結果,基礎モデルの選択,トレーニングデータセットスケール,学習可能なパラメータ量,モデルトレーニングコストがすべて重要な要因であることがわかった。
本稿の実験的な結論は、特に中国語の分野において、大規模言語モデルの学習にインスピレーションを与え、研究者がトレーニングコストとモデル性能のトレードオフ戦略をよりよいものにすることを願っている。
論文の結果の再現を容易にするために、データセット、モデル、コードがリリースされる。
関連論文リスト
- Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper [21.656923341138103]
本研究は,学習データがない場合の新たな言語モデルを強化するための戦略について検討する。
中国のウイスパーモデル(ウイグル語とチベット語)による実験では、よりコンパクトなパラメータセットでより良い結果が得られる。
論文 参考訳(メタデータ) (2024-08-20T09:31:59Z) - The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - On the Economics of Multilingual Few-shot Learning: Modeling the
Cost-Performance Trade-offs of Machine Translated and Manual Data [12.638781962950805]
本稿では,機械翻訳データと手作業で作成したラベル付きデータのパフォーマンスとコストのトレードオフを評価するためのフレームワークを提案する。
本稿では,TyDIQA-GoldPデータセットのケーススタディによるフレームワークの有効性について述べる。
論文 参考訳(メタデータ) (2022-05-12T20:27:01Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。