論文の概要: Birbal: An efficient 7B instruct-model fine-tuned with curated datasets
- arxiv url: http://arxiv.org/abs/2403.02247v1
- Date: Mon, 4 Mar 2024 17:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:59:52.401514
- Title: Birbal: An efficient 7B instruct-model fine-tuned with curated datasets
- Title(参考訳): Birbal: 効率的な7Bインストラクトモデル
- Authors: Ashvini Kumar Jindal, Pawan Kumar Rajpoot, Ankur Parikh
- Abstract要約: 私たちのMistral-7Bベースの勝利モデルであるBirbalは、1つのGTX 4090を16時間微調整しました。
Birbalの成功は、様々なタスクをカバーする高品質な命令のキュレーションであり、結果としてパフォーマンスは35%向上した。
- 参考スコア(独自算出の注目度): 0.9045513075236007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMOps incur significant costs due to hardware requirements, hindering their
widespread accessibility. Additionally, a lack of transparency in model
training methods and data contributes to the majority of models being
non-reproducible. To tackle these challenges, the LLM Efficiency Challenge was
introduced at NeurIPS Workshop, aiming to adapt foundation models on a diverse
set of tasks via fine-tuning on a single GPU (RTX 4090 or A100 with 40GB)
within a 24-hour timeframe. In this system description paper, we introduce
Birbal, our Mistral-7B based winning model, fine-tuned on a single RTX 4090 for
16 hours. Birbal's success lies in curating high-quality instructions covering
diverse tasks, resulting in a 35% performance improvement over second-best
Qwen-14B based submission.
- Abstract(参考訳): LLMOpsはハードウェア要件のためにかなりのコストがかかり、アクセシビリティを損なう。
さらに、モデルのトレーニング方法とデータの透明性の欠如は、モデルの大部分を再現不能にします。
これらの課題に取り組むため、LLM Effective ChallengeがNeurIPS Workshopで紹介され、24時間フレームで単一のGPU(RTX 4090またはA100 with 40GB)を微調整することで、基礎モデルをさまざまなタスクに適応することを目的としていた。
本稿では,1つのRTX 4090を16時間微調整したMistral-7Bベースの勝利モデルであるBirbalを紹介する。
Birbalの成功は、様々なタスクをカバーする高品質なインストラクションのキュレーションであり、結果として第2のQwen-14Bベースのサブミッションよりも35%パフォーマンスが改善される。
関連論文リスト
- Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。
提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T21:52:26Z) - Exposing Limitations of Language Model Agents in Sequential-Task
Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z) - Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文 参考訳(メタデータ) (2023-10-10T17:54:58Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Data-Efficient Finetuning Using Cross-Task Nearest Neighbors [75.07773863013001]
我々は、ラベル付きターゲットタスクの例を用いて、プロンプトを付加したマルチタスクデータのプールから、最も類似したラベル付きサンプルを検索する。
マルチタスク近傍におけるファインタニングモデルのアプローチは,データ効率が著しく向上する。
論文 参考訳(メタデータ) (2022-12-01T00:53:04Z) - Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud
Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。
既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文 参考訳(メタデータ) (2022-11-18T03:43:52Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Transcending Scaling Laws with 0.1% Extra Compute [128.13903265447675]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。
本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。
ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-10-20T16:46:41Z) - FastFormers: Highly Efficient Transformer Models for Natural Language
Understanding [9.3688204496122]
我々は,様々なNLUタスク上のTransformerベースのモデルに対して,効率的な推論時間性能を実現するためのレシピセットであるFastFormersを提案する。
SuperGLUEベンチマークに提案されたレシピを適用して、CPUのアウト・オブ・ザ・ボックスモデルと比較して9.8倍から233.9倍のスピードアップを達成した。
我々は、FastFormersがAzure F16s_v2インスタンス上で4,223 USDから18 USDに1億のリクエストを提供するコストを大幅に削減できることを示した。
論文 参考訳(メタデータ) (2020-10-26T07:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。