論文の概要: LLM360 K2: Scaling Up 360-Open-Source Large Language Models
- arxiv url: http://arxiv.org/abs/2501.07124v1
- Date: Mon, 13 Jan 2025 08:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:23:02.416501
- Title: LLM360 K2: Scaling Up 360-Open-Source Large Language Models
- Title(参考訳): LLM360 K2: 360-オープンソース大規模言語モデルのスケールアップ
- Authors: Zhengzhong Liu, Bowen Tan, Hongyi Wang, Willie Neiswanger, Tianhua Tao, Haonan Li, Fajri Koto, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Liqun Ma, Liping Tang, Nikhil Ranjan, Yonghao Zhuang, Guowei He, Renxi Wang, Mingkai Deng, Robin Algayres, Yuanzhi Li, Zhiqiang Shen, Preslav Nakov, Eric Xing,
- Abstract要約: 我々は、LLM360 K2-65Bモデルのトレーニングについて詳述し、私たちの360度OPEN SOURCEアプローチを、プロジェクトLLM360の下で最大かつ最も強力なモデルにスケールアップした。
- 参考スコア(独自算出の注目度): 77.02136168850532
- License:
- Abstract: We detail the training of the LLM360 K2-65B model, scaling up our 360-degree OPEN SOURCE approach to the largest and most powerful models under project LLM360. While open-source LLMs continue to advance, the answer to "How are the largest LLMs trained?" remains unclear within the community. The implementation details for such high-capacity models are often protected due to business considerations associated with their high cost. This lack of transparency prevents LLM researchers from leveraging valuable insights from prior experience, e.g., "What are the best practices for addressing loss spikes?" The LLM360 K2 project addresses this gap by providing full transparency and access to resources accumulated during the training of LLMs at the largest scale. This report highlights key elements of the K2 project, including our first model, K2 DIAMOND, a 65 billion-parameter LLM that surpasses LLaMA-65B and rivals LLaMA2-70B, while requiring fewer FLOPs and tokens. We detail the implementation steps and present a longitudinal analysis of K2 DIAMOND's capabilities throughout its training process. We also outline ongoing projects such as TXT360, setting the stage for future models in the series. By offering previously unavailable resources, the K2 project also resonates with the 360-degree OPEN SOURCE principles of transparency, reproducibility, and accessibility, which we believe are vital in the era of resource-intensive AI research.
- Abstract(参考訳): 我々は、LLM360 K2-65Bモデルのトレーニングについて詳述し、私たちの360度OPEN SOURCEアプローチを、プロジェクトLLM360の下で最大かつ最も強力なモデルにスケールアップした。
オープンソースのLLMは進歩を続けているが、"最大のLLMはどのようにトレーニングされているか?
このような高容量モデルの実装の詳細は、高コストに関連するビジネス上の考慮からしばしば保護される。
この透明性の欠如は、LLM研究者が事前の経験から価値ある洞察を活用するのを妨げている。
LLM360 K2プロジェクトは、LLMのトレーニング中に蓄積されたリソースを最大規模で完全な透明性とアクセスを提供することによって、このギャップに対処する。
このレポートでは、最初のモデルであるK2 DIAMONDを含むK2プロジェクトの重要な要素を取り上げ、LLaMA-65Bと競合するLLaMA2-70Bを上回り、FLOPやトークンを少なくする。
実施手順を詳述し、トレーニングプロセスを通してK2 DIAMONDの機能を経時的に分析する。
TXT360のような進行中のプロジェクトについても概説する。
K2プロジェクトは、これまで利用できなかったリソースを提供することで、透明性、再現性、アクセシビリティの360度OPEN SOURCE原則に共鳴します。
関連論文リスト
- MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Logits of API-Protected LLMs Leak Proprietary Information [46.014638838911566]
大きな言語モデル(LLM)プロバイダは、制限されたAPIへのパブリックアクセスを制限することで、プロプライエタリなモデルのアーキテクチャの詳細とパラメータを隠蔽することが多い。
比較的少数のAPIクエリから,APIで保護されたLLMに関する驚くほど多くの非公開情報を学習することが可能であることを示す。
論文 参考訳(メタデータ) (2024-03-14T16:27:49Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - LLM360: Towards Fully Transparent Open-Source LLMs [89.05970416013403]
LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。
LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
論文 参考訳(メタデータ) (2023-12-11T17:39:00Z) - Pushing Large Language Models to the 6G Edge: Vision, Challenges, and
Opportunities [32.035405009895264]
大規模言語モデル(LLM)はAI開発に革命をもたらし、私たちの未来を形作る可能性がある。
1) 長時間の応答時間、2) 帯域幅のコスト、3) データプライバシの侵害。
6Gモバイルエッジコンピューティング(MEC)システムは、これらのプレス問題を解決できるかもしれない。
本稿は,6GエッジにおけるLCMのモチベーション,課題,経路を徹底的に特定するためのポジションペーパーとして機能する。
論文 参考訳(メタデータ) (2023-09-28T06:22:59Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。