論文の概要: Fox-1 Technical Report
- arxiv url: http://arxiv.org/abs/2411.05281v2
- Date: Sun, 17 Nov 2024 05:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:24.035317
- Title: Fox-1 Technical Report
- Title(参考訳): Fox-1 技術報告
- Authors: Zijian Hu, Jipeng Zhang, Rui Pan, Zhaozhuo Xu, Shanshan Han, Han Jin, Alay Dilipbhai Shah, Dimitris Stripelis, Yuhang Yao, Salman Avestimehr, Chaoyang He, Tong Zhang,
- Abstract要約: 我々はFox-1-1.6BとFox-1-1.6B-Instruct-v0.1からなる一連の小言語モデル(SLM)を提示する。
Fox-1は、StableLM-2-1.6B、Gemma-2B、Qwen1.5-1.8B、OpenELM1.1Bと競合する推論速度とスループットで比較すると、様々なベンチマークで性能が向上している。
- 参考スコア(独自算出の注目度): 33.9533448440417
- License:
- Abstract: We present Fox-1, a series of small language models (SLMs) consisting of Fox-1-1.6B and Fox-1-1.6B-Instruct-v0.1. These models are pre-trained on 3 trillion tokens of web-scraped document data and fine-tuned with 5 billion tokens of instruction-following and multi-turn conversation data. Aiming to improve the pre-training efficiency, Fox-1-1.6B model introduces a novel 3-stage data curriculum across all the training data with 2K-8K sequence length. In architecture design, Fox-1 features a deeper layer structure, an expanded vocabulary, and utilizes Grouped Query Attention (GQA), offering a performant and efficient architecture compared to other SLMs. Fox-1 achieves better or on-par performance in various benchmarks compared to StableLM-2-1.6B, Gemma-2B, Qwen1.5-1.8B, and OpenELM1.1B, with competitive inference speed and throughput. The model weights have been released under the Apache 2.0 license, where we aim to promote the democratization of LLMs and make them fully accessible to the whole open-source community.
- Abstract(参考訳): 我々はFox-1-1.6BとFox-1-1.6B-Instruct-v0.1からなる一連の小言語モデル(SLM)を提示する。
これらのモデルは、Webスクラッドドキュメントデータの3兆トークンで事前トレーニングされ、50億トークンの命令フォローとマルチターンの会話データで微調整される。
Fox-1-1.6Bモデルでは、トレーニング前の効率を改善するために、2K-8Kシーケンス長のトレーニングデータに3段階のデータカリキュラムを導入している。
アーキテクチャ設計において、Fox-1はより深い層構造、拡張された語彙を持ち、GQA(Grouped Query Attention)を利用して、他のSLMと比較して高性能で効率的なアーキテクチャを提供する。
Fox-1は、StableLM-2-1.6B、Gemma-2B、Qwen1.5-1.8B、OpenELM1.1Bと競合する推論速度とスループットで比較すると、様々なベンチマークで性能が向上している。
モデルウェイトはApache 2.0ライセンスの下でリリースされ、LCMの民主化を促進し、オープンソースコミュニティ全体に完全にアクセスできるようにすることを目指しています。
関連論文リスト
- 1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。
MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。
これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文 参考訳(メタデータ) (2024-08-07T02:14:52Z) - FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation [32.01836613286288]
この研究は、完全なビナライズされた大規模言語モデル(FBI-LLM)を提示する。
大規模なバイナリ言語モデルをスクラッチからトレーニングする方法を初めて示すものだ。
論文 参考訳(メタデータ) (2024-07-09T17:59:48Z) - Xmodel-LM Technical Report [13.451816134545163]
Xmodel-LMは、約2兆トークンで事前訓練されたコンパクトで効率的な1.1B言語モデルである。
大きさは小さいものの、見事な性能を誇っている。
論文 参考訳(メタデータ) (2024-06-05T02:12:06Z) - Tandem Transformers for Inference Efficient LLMs [49.75726447408795]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。
PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文 参考訳(メタデータ) (2024-02-13T18:24:08Z) - OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer [67.75820725013372]
Open Whisperスタイルの音声モデル(OWSM)は、公開データとオープンソースツールキットを使用してOpenAI Whisperを再現するための最初のステップである。
OWSM v3.1 は100M から 1B のパラメータを含む一連の E-Branchformer ベースのモデルを示す。
OWSM v3.1は、ほとんどの評価ベンチマークにおいて、以前のOWSM v3よりも優れ、推論速度は25%向上した。
論文 参考訳(メタデータ) (2024-01-30T01:22:18Z) - The Falcon Series of Open Language Models [36.93493444130304]
さまざまな高品質コーパスで訓練された因果デコーダのみのモデルとして,7B,40B,180Bというファルコンシリーズを紹介した。
最大のモデルであるFalcon-180Bは3.5兆個のテキストトークンで訓練されている。
Falcon-180B は PaLM や Chinchilla などのモデルよりも優れており、LLaMA 2 や Inflection-1 のような同時開発モデルでも改善されている。
論文 参考訳(メタデータ) (2023-11-28T15:12:47Z) - OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model
Pre-trained from Scratch [41.45002811060755]
本報告では,オープンソースの15Bバイリンガル非対称seq2seqモデルであるOpenBAについて述べる。
OpenBAを効果的かつ効率的な技術で強化するとともに,スクラッチからモデルをトレーニングするための3段階のトレーニング戦略を採用しています。
私たちのソリューションは、380Bトークンだけで非常に競争力のあるパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-09-19T15:46:40Z) - Textbooks Are All You Need II: phi-1.5 technical report [55.6940110946465]
我々は、新しい13億のパラメータモデル textbfphi-1.5を作成し、5倍のモデルに匹敵する自然言語タスクのパフォーマンスを実現した。
textbfphi-1.5はより大きな言語モデルの特徴の多くを示している。
我々はこれらの緊急トピックに関するさらなる研究を促進するために textbfphi-1.5 をオープンソース化した。
論文 参考訳(メタデータ) (2023-09-11T14:01:45Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。