論文の概要: Birbal: An efficient 7B instruct-model fine-tuned with curated datasets
- arxiv url: http://arxiv.org/abs/2403.02247v1
- Date: Mon, 4 Mar 2024 17:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:59:52.401514
- Title: Birbal: An efficient 7B instruct-model fine-tuned with curated datasets
- Title(参考訳): Birbal: 効率的な7Bインストラクトモデル
- Authors: Ashvini Kumar Jindal, Pawan Kumar Rajpoot, Ankur Parikh
- Abstract要約: 私たちのMistral-7Bベースの勝利モデルであるBirbalは、1つのGTX 4090を16時間微調整しました。
Birbalの成功は、様々なタスクをカバーする高品質な命令のキュレーションであり、結果としてパフォーマンスは35%向上した。
- 参考スコア(独自算出の注目度): 0.9045513075236007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMOps incur significant costs due to hardware requirements, hindering their
widespread accessibility. Additionally, a lack of transparency in model
training methods and data contributes to the majority of models being
non-reproducible. To tackle these challenges, the LLM Efficiency Challenge was
introduced at NeurIPS Workshop, aiming to adapt foundation models on a diverse
set of tasks via fine-tuning on a single GPU (RTX 4090 or A100 with 40GB)
within a 24-hour timeframe. In this system description paper, we introduce
Birbal, our Mistral-7B based winning model, fine-tuned on a single RTX 4090 for
16 hours. Birbal's success lies in curating high-quality instructions covering
diverse tasks, resulting in a 35% performance improvement over second-best
Qwen-14B based submission.
- Abstract(参考訳): LLMOpsはハードウェア要件のためにかなりのコストがかかり、アクセシビリティを損なう。
さらに、モデルのトレーニング方法とデータの透明性の欠如は、モデルの大部分を再現不能にします。
これらの課題に取り組むため、LLM Effective ChallengeがNeurIPS Workshopで紹介され、24時間フレームで単一のGPU(RTX 4090またはA100 with 40GB)を微調整することで、基礎モデルをさまざまなタスクに適応することを目的としていた。
本稿では,1つのRTX 4090を16時間微調整したMistral-7Bベースの勝利モデルであるBirbalを紹介する。
Birbalの成功は、様々なタスクをカバーする高品質なインストラクションのキュレーションであり、結果として第2のQwen-14Bベースのサブミッションよりも35%パフォーマンスが改善される。
関連論文リスト
- GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。
エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。
我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文 参考訳(メタデータ) (2024-09-18T17:00:20Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - A Teacher Is Worth A Million Instructions [4.322454918650575]
提案手法を用いた微調整Mistral 7Bと2x7Bは、7Bおよび13B以上のパラメータを持つ最先端言語モデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-27T11:48:25Z) - Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。
提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T21:52:26Z) - Aligner: Efficient Alignment by Learning to Correct [10.056049435141645]
モデルに依存しないプラグアンドプレイモジュールであるAlignerを導入し、好ましくない回答と好ましくない回答の補正残差を学習する。
トレーニングはワンオフで、さまざまなオープンソースおよびAPIベースのモデルに適用できるため、迅速なイテレーションに適している。
実験では、11の異なる言語モデルに同じAlignerモデルをデプロイすることで、パフォーマンスの向上を実証した。
論文 参考訳(メタデータ) (2024-02-04T09:24:51Z) - Exposing Limitations of Language Model Agents in Sequential-Task
Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - Data-Efficient Finetuning Using Cross-Task Nearest Neighbors [75.07773863013001]
我々は、ラベル付きターゲットタスクの例を用いて、プロンプトを付加したマルチタスクデータのプールから、最も類似したラベル付きサンプルを検索する。
マルチタスク近傍におけるファインタニングモデルのアプローチは,データ効率が著しく向上する。
論文 参考訳(メタデータ) (2022-12-01T00:53:04Z) - Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud
Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。
既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文 参考訳(メタデータ) (2022-11-18T03:43:52Z) - Transcending Scaling Laws with 0.1% Extra Compute [128.13903265447675]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。
本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。
ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-10-20T16:46:41Z) - FastFormers: Highly Efficient Transformer Models for Natural Language
Understanding [9.3688204496122]
我々は,様々なNLUタスク上のTransformerベースのモデルに対して,効率的な推論時間性能を実現するためのレシピセットであるFastFormersを提案する。
SuperGLUEベンチマークに提案されたレシピを適用して、CPUのアウト・オブ・ザ・ボックスモデルと比較して9.8倍から233.9倍のスピードアップを達成した。
我々は、FastFormersがAzure F16s_v2インスタンス上で4,223 USDから18 USDに1億のリクエストを提供するコストを大幅に削減できることを示した。
論文 参考訳(メタデータ) (2020-10-26T07:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。