論文の概要: LLaMA: Open and Efficient Foundation Language Models
- arxiv url: http://arxiv.org/abs/2302.13971v1
- Date: Mon, 27 Feb 2023 17:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:43:00.839811
- Title: LLaMA: Open and Efficient Foundation Language Models
- Title(参考訳): LLaMA: オープンで効率的な基礎言語モデル
- Authors: Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet,
Marie-Anne Lachaux, Timoth\'ee Lacroix, Baptiste Rozi\`ere, Naman Goyal, Eric
Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave,
Guillaume Lample
- Abstract要約: LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。
私たちは、何十兆ものトークンでモデルをトレーニングし、公開データセットのみを使用して最先端モデルをトレーニングすることが可能であることを示しています。
- 参考スコア(独自算出の注目度): 62.94749698865241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LLaMA, a collection of foundation language models ranging from
7B to 65B parameters. We train our models on trillions of tokens, and show that
it is possible to train state-of-the-art models using publicly available
datasets exclusively, without resorting to proprietary and inaccessible
datasets. In particular, LLaMA-13B outperforms GPT-3 (175B) on most benchmarks,
and LLaMA-65B is competitive with the best models, Chinchilla-70B and
PaLM-540B. We release all our models to the research community.
- Abstract(参考訳): LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。
私たちは数兆のトークンでモデルをトレーニングし、プロプライエタリでアクセス不能なデータセットを使わずに、公開されているデータセットのみを使用して最先端のモデルをトレーニングできることを示しています。
特にLLaMA-13BはほとんどのベンチマークでGPT-3 (175B)を上回っ、LLaMA-65Bは最高のモデルであるChinchilla-70BとPaLM-540Bと競合する。
すべてのモデルを研究コミュニティにリリースします。
関連論文リスト
- LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training [21.359073227913303]
大規模な環境でのMoEのスクラッチからのトレーニングは、依然としてデータ不足と不安定な問題に悩まされている。
この制限により、既存の高密度大言語モデルからMoEモデルを構築することを検討する。
我々のLLaMA-MoEモデルは、同様のアクティベーションパラメータを含む高密度モデルよりも著しく優れている。
論文 参考訳(メタデータ) (2024-06-24T11:43:07Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Advanced Natural-based interaction for the ITAlian language: LLaMAntino-3-ANITA [3.195234044113248]
本稿では,新しいメタLLaMA-3モデル,LLaMAntino-3-ANITA-8B-Inst-DPO-ITAに基づくLarge Language Model(LLM)を紹介する。
英語とイタリア語のデータセットにスーパーバイザード・ファイン・チューニング(SFT)技術を用いて,元の8Bパラメータのチューニングモデルを微調整した。
動的選好最適化(DPO)プロセスは、選好の調整、危険で不適切な回答の回避、バイアスと偏見の制限に使用されている。
論文 参考訳(メタデータ) (2024-05-11T22:02:55Z) - LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model [4.6373877301731]
我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。
コネクタの事前訓練,より強力な画像バックボーンの利用,言語バックボーンのサイズ拡大という,3つの設計上の特徴を損なう効果を検証した。
LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。
論文 参考訳(メタデータ) (2024-03-29T21:32:50Z) - LLaMA Pro: Progressive LLaMA with Block Expansion [66.39213657252279]
本稿では,トランスフォーマーブロックを拡張したLarge Language Models (LLM) の事前学習手法を提案する。
我々は,新たなコーパスのみを用いて拡張ブロックをチューニングし,大惨な忘れをすることなく,モデル知識を効率的に,効果的に改善する。
本稿では,LLaMA2-7Bの多元的基礎モデルであるLLaMA Pro-8.3Bのコードと数学のコーパスについて実験する。
論文 参考訳(メタデータ) (2024-01-04T18:59:12Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。