論文の概要: H2O-Danube3 Technical Report
- arxiv url: http://arxiv.org/abs/2407.09276v1
- Date: Fri, 12 Jul 2024 14:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:18:28.553892
- Title: H2O-Danube3 Technical Report
- Title(参考訳): H2O-Danube3技術報告
- Authors: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati,
- Abstract要約: 6Tトークンで訓練されたH2O-Danube3-4Bと、4Tトークンで訓練されたH2O-Danube3-500Mからなる一連の小言語モデルであるH2O-Danube3を提案する。
我々のモデルは、チャットバージョンの最終教師ありチューニングの前に、主に英語のトークンを3段階に分けた高品質なWebデータに基づいて事前訓練されている。
- 参考スコア(独自算出の注目度): 2.8203012383355808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present H2O-Danube3, a series of small language models consisting of H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T tokens. Our models are pre-trained on high quality Web data consisting of primarily English tokens in three stages with different data mixes before final supervised tuning for chat version. The models exhibit highly competitive metrics across a multitude of academic, chat, and fine-tuning benchmarks. Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a modern smartphone, enabling local inference and rapid processing capabilities even on mobile devices. We make all models openly available under Apache 2.0 license further democratizing LLMs to a wider audience economically.
- Abstract(参考訳): 6Tトークンで訓練されたH2O-Danube3-4Bと、4Tトークンで訓練されたH2O-Danube3-500Mからなる一連の小言語モデルであるH2O-Danube3を提案する。
我々のモデルは、チャットバージョンの最終教師ありチューニングの前に、主に英語のトークンを3段階に分けた高品質なWebデータに基づいて事前訓練されている。
これらのモデルは、さまざまな学術的、チャット、微調整のベンチマークで非常に競争力のある指標を示している。
コンパクトなアーキテクチャのおかげで、H2O-Danube3は最新のスマートフォン上で効率的に動作し、モバイル端末でもローカル推論と高速な処理を可能にする。
私たちは、すべてのモデルをApache 2.0ライセンスの下で公開して、LLMをさらに経済的に幅広い聴衆に民主化させています。
関連論文リスト
- Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language [34.54405113575568]
1つの高品質なソース言語から機械翻訳されたテキストは、多言語モデルの事前学習に大きく貢献する。
クアトロLLMは、クローズドデータを用いて訓練された最先端の多言語モデルと一致し、より優れることを示す。
私たちは、hf.co/britllm/CuatroLLMでオープンライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースしています。
論文 参考訳(メタデータ) (2024-10-31T14:09:50Z) - Less is More: Accurate Speech Recognition & Translation without Web-Scale Data [26.461185681285745]
Canaryは多言語ASRおよび音声翻訳モデルである。
英語、フランス語、スペイン語、ドイツ語でWhisper、OWSM、Seamless-M4Tを上回っている。
論文 参考訳(メタデータ) (2024-06-28T06:22:23Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文 参考訳(メタデータ) (2024-03-07T16:52:49Z) - H2O-Danube-1.8B Technical Report [2.6856284636402106]
本稿では,H2O-Danubeについて述べる。
H2O-Danube2-1.8B は2Bパラメータ範囲以下の全てのモデルで Open LLM Leaderboard でトップランクを獲得している。
論文 参考訳(メタデータ) (2024-01-30T08:45:08Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora
with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。
RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文 参考訳(メタデータ) (2023-06-01T20:03:56Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - LightPAFF: A Two-Stage Distillation Framework for Pre-training and
Fine-tuning [146.51221523793342]
LightPAFFは、2段階の知識蒸留を使用して、大きな教師モデルから軽量の学生モデルに知識を伝達する。
LightPAFFはモデルサイズを5倍近く削減し、オンライン推論速度を5倍-7倍改善する。
論文 参考訳(メタデータ) (2020-04-27T14:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。