Fugu-MT 論文翻訳(概要): Birbal: An efficient 7B instruct-model fine-tuned with curated datasets

論文の概要: Birbal: An efficient 7B instruct-model fine-tuned with curated datasets

arxiv url: http://arxiv.org/abs/2403.02247v1
Date: Mon, 4 Mar 2024 17:34:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 17:59:52.401514
Title: Birbal: An efficient 7B instruct-model fine-tuned with curated datasets
Title（参考訳）: Birbal: 効率的な7Bインストラクトモデル
Authors: Ashvini Kumar Jindal, Pawan Kumar Rajpoot, Ankur Parikh
Abstract要約: 私たちのMistral-7Bベースの勝利モデルであるBirbalは、1つのGTX 4090を16時間微調整しました。 Birbalの成功は、様々なタスクをカバーする高品質な命令のキュレーションであり、結果としてパフォーマンスは35%向上した。
参考スコア（独自算出の注目度）: 0.9045513075236007
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMOps incur significant costs due to hardware requirements, hindering their widespread accessibility. Additionally, a lack of transparency in model training methods and data contributes to the majority of models being non-reproducible. To tackle these challenges, the LLM Efficiency Challenge was introduced at NeurIPS Workshop, aiming to adapt foundation models on a diverse set of tasks via fine-tuning on a single GPU (RTX 4090 or A100 with 40GB) within a 24-hour timeframe. In this system description paper, we introduce Birbal, our Mistral-7B based winning model, fine-tuned on a single RTX 4090 for 16 hours. Birbal's success lies in curating high-quality instructions covering diverse tasks, resulting in a 35% performance improvement over second-best Qwen-14B based submission.
Abstract（参考訳）: LLMOpsはハードウェア要件のためにかなりのコストがかかり、アクセシビリティを損なう。さらに、モデルのトレーニング方法とデータの透明性の欠如は、モデルの大部分を再現不能にします。これらの課題に取り組むため、LLM Effective ChallengeがNeurIPS Workshopで紹介され、24時間フレームで単一のGPU(RTX 4090またはA100 with 40GB)を微調整することで、基礎モデルをさまざまなタスクに適応することを目的としていた。本稿では,1つのRTX 4090を16時間微調整したMistral-7Bベースの勝利モデルであるBirbalを紹介する。 Birbalの成功は、様々なタスクをカバーする高品質なインストラクションのキュレーションであり、結果として第2のQwen-14Bベースのサブミッションよりも35%パフォーマンスが改善される。

関連論文リスト

Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。 Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文参考訳（メタデータ） (2025-08-05T16:28:22Z)
Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。 YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2025-05-20T14:31:06Z)
DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training [16.441081996257576]
大規模言語モデル(LLM)は、最近、様々な複雑な推論ベンチマークで顕著なパフォーマンスを達成した。難易度が変化する約334万のユニークなクエリを含む大規模で難易度の高い推論データセットを構築した。 AIME2024の数学的推論ベンチマークで79.2%のパス率を達成することで、ベースモデルの推論能力を大幅に改善する。
論文参考訳（メタデータ） (2025-04-24T13:57:53Z)
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。 ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-04-10T17:49:05Z)
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。 LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。 LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文参考訳（メタデータ） (2025-03-04T10:21:57Z)
BARE: Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation [71.46236155101032]
本研究では,ベースモデルの多様性とインストラクション学習モデルの品質を組み合わせた合成データ生成手法であるBase-Refineを提案する。 BARE生成データによる微調整は, GSM8Kの命令のみのデータよりも101%, RAFTのSOTA法より18.4%向上することを示す。
論文参考訳（メタデータ） (2025-02-03T00:12:40Z)
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。 Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B) はLlama-3.1-70B-Instructから派生した一般公開モデルである。
論文参考訳（メタデータ） (2024-11-28T13:45:42Z)
GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文参考訳（メタデータ） (2024-09-18T17:00:20Z)
Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
A Teacher Is Worth A Million Instructions [4.322454918650575]
提案手法を用いた微調整Mistral 7Bと2x7Bは、7Bおよび13B以上のパラメータを持つ最先端言語モデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-27T11:48:25Z)
Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文参考訳（メタデータ） (2024-03-14T21:52:26Z)
Aligner: Efficient Alignment by Learning to Correct [10.056049435141645]
モデルに依存しないプラグアンドプレイモジュールであるAlignerを導入し、好ましくない回答と好ましくない回答の補正残差を学習する。トレーニングはワンオフで、さまざまなオープンソースおよびAPIベースのモデルに適用できるため、迅速なイテレーションに適している。実験では、11の異なる言語モデルに同じAlignerモデルをデプロイすることで、パフォーマンスの向上を実証した。
論文参考訳（メタデータ） (2024-02-04T09:24:51Z)
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文参考訳（メタデータ） (2023-11-30T17:50:47Z)
QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。 QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文参考訳（メタデータ） (2023-08-21T07:06:49Z)
Data-Efficient Finetuning Using Cross-Task Nearest Neighbors [75.07773863013001]
我々は、ラベル付きターゲットタスクの例を用いて、プロンプトを付加したマルチタスクデータのプールから、最も類似したラベル付きサンプルを検索する。マルチタスク近傍におけるファインタニングモデルのアプローチは,データ効率が著しく向上する。
論文参考訳（メタデータ） (2022-12-01T00:53:04Z)
Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文参考訳（メタデータ） (2022-11-18T03:43:52Z)
Transcending Scaling Laws with 0.1% Extra Compute [128.13903265447675]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-10-20T16:46:41Z)
FastFormers: Highly Efficient Transformer Models for Natural Language Understanding [9.3688204496122]
我々は,様々なNLUタスク上のTransformerベースのモデルに対して,効率的な推論時間性能を実現するためのレシピセットであるFastFormersを提案する。 SuperGLUEベンチマークに提案されたレシピを適用して、CPUのアウト・オブ・ザ・ボックスモデルと比較して9.8倍から233.9倍のスピードアップを達成した。我々は、FastFormersがAzure F16s_v2インスタンス上で4,223 USDから18 USDに1億のリクエストを提供するコストを大幅に削減できることを示した。
論文参考訳（メタデータ） (2020-10-26T07:25:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。