Fugu-MT 論文翻訳(概要): LLaMA: Open and Efficient Foundation Language Models

論文の概要: LLaMA: Open and Efficient Foundation Language Models

arxiv url: http://arxiv.org/abs/2302.13971v1
Date: Mon, 27 Feb 2023 17:11:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 14:43:00.839811
Title: LLaMA: Open and Efficient Foundation Language Models
Title（参考訳）: LLaMA: オープンで効率的な基礎言語モデル
Authors: Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timoth\'ee Lacroix, Baptiste Rozi\`ere, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample
Abstract要約: LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。私たちは、何十兆ものトークンでモデルをトレーニングし、公開データセットのみを使用して最先端モデルをトレーニングすることが可能であることを示しています。
参考スコア（独自算出の注目度）: 62.94749698865241
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using publicly available datasets exclusively, without resorting to proprietary and inaccessible datasets. In particular, LLaMA-13B outperforms GPT-3 (175B) on most benchmarks, and LLaMA-65B is competitive with the best models, Chinchilla-70B and PaLM-540B. We release all our models to the research community.
Abstract（参考訳）: LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。私たちは数兆のトークンでモデルをトレーニングし、プロプライエタリでアクセス不能なデータセットを使わずに、公開されているデータセットのみを使用して最先端のモデルをトレーニングできることを示しています。特にLLaMA-13BはほとんどのベンチマークでGPT-3 (175B)を上回っ、LLaMA-65Bは最高のモデルであるChinchilla-70BとPaLM-540Bと競合する。すべてのモデルを研究コミュニティにリリースします。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文参考訳（メタデータ） (2025-03-18T07:44:49Z)
TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。 TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文参考訳（メタデータ） (2025-02-16T16:22:23Z)
LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training [21.359073227913303]
大規模な環境でのMoEのスクラッチからのトレーニングは、依然としてデータ不足と不安定な問題に悩まされている。この制限により、既存の高密度大言語モデルからMoEモデルを構築することを検討する。我々のLLaMA-MoEモデルは、同様のアクティベーションパラメータを含む高密度モデルよりも著しく優れている。
論文参考訳（メタデータ） (2024-06-24T11:43:07Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
Advanced Natural-based interaction for the ITAlian language: LLaMAntino-3-ANITA [3.195234044113248]
本稿では,新しいメタLLaMA-3モデル,LLaMAntino-3-ANITA-8B-Inst-DPO-ITAに基づくLarge Language Model(LLM)を紹介する。英語とイタリア語のデータセットにスーパーバイザード・ファイン・チューニング(SFT)技術を用いて,元の8Bパラメータのチューニングモデルを微調整した。動的選好最適化(DPO)プロセスは、選好の調整、危険で不適切な回答の回避、バイアスと偏見の制限に使用されている。
論文参考訳（メタデータ） (2024-05-11T22:02:55Z)
An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。 LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文参考訳（メタデータ） (2024-04-22T10:03:03Z)
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model [4.6373877301731]
我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。コネクタの事前訓練,より強力な画像バックボーンの利用,言語バックボーンのサイズ拡大という,3つの設計上の特徴を損なう効果を検証した。 LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。
論文参考訳（メタデータ） (2024-03-29T21:32:50Z)
LLaMA Pro: Progressive LLaMA with Block Expansion [66.39213657252279]
本稿では,トランスフォーマーブロックを拡張したLarge Language Models (LLM) の事前学習手法を提案する。我々は,新たなコーパスのみを用いて拡張ブロックをチューニングし,大惨な忘れをすることなく,モデル知識を効率的に,効果的に改善する。本稿では,LLaMA2-7Bの多元的基礎モデルであるLLaMA Pro-8.3Bのコードと数学のコーパスについて実験する。
論文参考訳（メタデータ） (2024-01-04T18:59:12Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文参考訳（メタデータ） (2023-05-25T05:00:12Z)
Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文参考訳（メタデータ） (2022-10-20T16:58:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。