論文の概要: LokiLM: Technical Report
- arxiv url: http://arxiv.org/abs/2407.07370v1
- Date: Wed, 10 Jul 2024 05:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:51:32.135667
- Title: LokiLM: Technical Report
- Title(参考訳): LokiLM: テクニカルレポート
- Authors: Justin Kiefel, Shrey Shah,
- Abstract要約: 500Bトークンでトレーニングされた1.4Bパラメータ大言語モデルであるLokiLMを紹介する。
LokiLMは1.5B以下のパラメータを持つモデル間で最先端のパフォーマンスを実現する。
その有望なパフォーマンスにもかかわらず、LokiLMは、TruthfulQAベンチマークにおいて、必要な量の幻覚とスコアを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce LokiLM, a 1.4B parameter large language model trained on 500B tokens. Our model performs strongly in natural language reasoning tasks and achieves state-of-the-art performance among models with 1.5B parameters or less. LokiLM is trained using multi-teacher knowledge distillation and high-quality training data to achieve benchmark results competitive with larger models trained on significantly more tokens. We support these findings by introducing steps to avoid benchmark contamination and overfitting throughout our development process. Despite its promising performance, LokiLM exhibits a concerning amount of hallucinations and scores poorly on the TruthfulQA benchmark, so we do not release the model publicly.
- Abstract(参考訳): 本稿では,500Bトークンでトレーニングされた1.4Bパラメータ大言語モデルであるLokiLMを紹介する。
我々のモデルは自然言語推論タスクにおいて強く機能し、1.5B以下のパラメータを持つモデル間で最先端のパフォーマンスを達成する。
LokiLMはマルチ教師の知識蒸留と高品質のトレーニングデータを用いて訓練され、より多くのトークンで訓練されたより大きなモデルとベンチマーク結果の競合を達成している。
ベンチマークの汚染を回避し、開発プロセス全体を通して過度に適合するステップを導入することで、これらの発見を支援します。
LokiLMは有望な性能にもかかわらず、TruthfulQAベンチマークでは幻覚やスコアが不足しているため、そのモデルを公開していない。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Falcon2-11B Technical Report [12.473984346805011]
5兆以上のトークンでトレーニングされた基盤モデルであるFalcon2-11Bと、ビジョン・トゥ・テキストモデルであるFalcon2-11B-vlmを紹介する。
我々は,多段階アプローチによるFalcon2-11Bの訓練中に得られた知見を報告する。
また,学習期間中のバッチサイズを倍増させる効果と,学習率によるトレーニング損失のスパイクの影響を報告する。
論文 参考訳(メタデータ) (2024-07-20T14:23:15Z) - Leveraging Large Language Models for Knowledge-free Weak Supervision in Clinical Natural Language Processing [3.7906296809297406]
本稿では,LLMの微調整と,ドメイン知識のほとんどない監督の弱さを活用するアプローチを提案する。
金の標準紙幣が10枚しかなく、最終BERTモデルは微調整のLlama2-13Bによって弱く管理され、F1スコアの4.7%から47.9%の精度でPubMedBERTを上回った。
論文 参考訳(メタデータ) (2024-06-10T18:34:48Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。