Fugu-MT 論文翻訳(概要): H2O-Danube-1.8B Technical Report

論文の概要: H2O-Danube-1.8B Technical Report

arxiv url: http://arxiv.org/abs/2401.16818v1
Date: Tue, 30 Jan 2024 08:45:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 15:42:43.202497
Title: H2O-Danube-1.8B Technical Report
Title（参考訳）: H2O-Danube-1.8B技術報告
Authors: Philipp Singer, Pascal Pfeiffer, Yauhen Babakhin, Maximilian Jeblick, Nischay Dhankhar, Gabor Fodor, Sri Satish Ambati
Abstract要約: H2O-Danube-1.8Bは1Tトークンで訓練された1.8B言語モデルである。 H2O-Danube-1.8BをApache 2.0ライセンスで公開しています。
参考スコア（独自算出の注目度）: 2.8203012383355808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present H2O-Danube-1.8B, a 1.8B language model trained on 1T tokens following the core principles of LLama 2 and Mistral. We leverage and refine various techniques for pre-training large language models. Although our model is trained on significantly fewer total tokens compared to reference models of similar size, it exhibits highly competitive metrics across a multitude of benchmarks. We additionally release a chat model trained with supervised fine-tuning followed by direct preference optimization. We make H2O-Danube-1.8B openly available under Apache 2.0 license further democratizing LLMs to a wider audience economically.
Abstract（参考訳）: H2O-Danube-1.8Bは、1Tトークンで訓練された1.8B言語モデルで、LLama 2とMistralのコア原則に従っている。我々は、大規模言語モデルの事前学習に様々な技術を活用し、洗練する。私たちのモデルは、同様のサイズの参照モデルと比較して、トータルトークンのトレーニングがかなり少ないが、多数のベンチマークで高い競争力を示す。さらに、教師付き微調整で訓練されたチャットモデルもリリースし、直接選好最適化を行った。我々は、h2o-danube-1.8bをapache 2.0ライセンスの下でオープンに利用可能にする。

関連論文リスト

Matryoshka Model Learning for Improved Elastic Student Models [62.154536258259384]
MatTAは、新しいTeacher-TA-Studentレシピを使用して、複数の正確な学生モデルをトレーニングするためのフレームワークである。本手法はパブリックモデルであるGPT-2 Medium上で実証し,SAT Mathで24%,LAMBADAベンチマークで10%以上の相対的な改善を実現した。
論文参考訳（メタデータ） (2025-05-29T10:54:58Z)
Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文参考訳（メタデータ） (2025-03-07T04:43:39Z)
2 OLMo 2 Furious [126.72656187302502]
OLMo 2には、アーキテクチャとトレーニングのレシピを改善した密集した自己回帰モデルが含まれている。我々の最新の事前学習データミックスは、Dolmino Mix 1124と呼ばれる新しい特殊なデータミックスを導入しました。完全にオープンなOLMo 2-Instructモデルは、同等の大きさのオープンウェイトモデルに匹敵するか、上回っている。
論文参考訳（メタデータ） (2024-12-31T21:55:10Z)
H2O-Danube3 Technical Report [2.8203012383355808]
6Tトークンで訓練されたH2O-Danube3-4Bと、4Tトークンで訓練されたH2O-Danube3-500Mからなる一連の小言語モデルであるH2O-Danube3を提案する。我々のモデルは、チャットバージョンの最終教師ありチューニングの前に、主に英語のトークンを3段階に分けた高品質なWebデータに基づいて事前訓練されている。
論文参考訳（メタデータ） (2024-07-12T14:09:40Z)
GEB-1.3B: Open Lightweight Large Language Model [12.083014082506281]
GEB-1.3Bは、中国語と英語の両方で5500億のトークンで訓練された軽量な大規模言語モデル(LLM)である。我々は, ROPE, Group-Query-Attention, FlashAttention-2などの新しいトレーニング技術を用いて, モデル性能を維持しながらトレーニングを加速する。 GEB-1.3BはMMLU、C-Eval、CMMLUなどの一般的なベンチマークで優れた性能を示し、MindLLM-1.3BやTinyLLaMA-1.1Bのような比較モデルよりも優れている。オープンソースモデルとしてのGAB-1.3Bのリリースは、開発に重大な貢献をした
論文参考訳（メタデータ） (2024-06-14T10:15:49Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Gemma: Open Models Based on Gemini Research and Technology [128.57714343844074]
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。 Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-03-13T06:59:16Z)
Self-Rewarding Language Models [105.6830788170348]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文参考訳（メタデータ） (2024-01-18T14:43:47Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。より小さな言語モデルにLPMを蒸留するKD手法を提案する。提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文参考訳（メタデータ） (2023-06-14T14:44:03Z)
Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。中国の公共のPLMと比較すると、メンジは単純だがより強力である。我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文参考訳（メタデータ） (2021-10-13T13:14:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。