論文の概要: Fully Open Source Moxin-7B Technical Report
- arxiv url: http://arxiv.org/abs/2412.06845v2
- Date: Wed, 11 Dec 2024 19:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:50:06.470166
- Title: Fully Open Source Moxin-7B Technical Report
- Title(参考訳): 完全なオープンソースMoxin-7B技術レポート
- Authors: Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Xingchen Xu, Yu Huang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang,
- Abstract要約: 大きな言語モデル(LLM)は、その人気と能力の急激な上昇によって、大きな変革を遂げている。
この問題を緩和するために、モデルオープンネスフレームワーク(MOF)に従って開発された完全にオープンソースなLLMであるMoxin 7Bを紹介します。
本モデルは,事前学習コードと構成の包括的リリースを通じて,オープンサイエンスのMOF分類レベルを最大化する。
- 参考スコア(独自算出の注目度): 38.13392000279939
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Large Language Models (LLMs) have undergone a significant transformation, marked by a rapid rise in both their popularity and capabilities. Leading this evolution are proprietary LLMs like GPT-4 and GPT-o1, which have captured widespread attention in the AI community due to their remarkable performance and versatility. Simultaneously, open-source LLMs, such as LLaMA and Mistral, have made great contributions to the ever-increasing popularity of LLMs due to the ease to customize and deploy the models across diverse applications. Although open-source LLMs present unprecedented opportunities for innovation and research, the commercialization of LLMs has raised concerns about transparency, reproducibility, and safety. Many open-source LLMs fail to meet fundamental transparency requirements by withholding essential components like training code and data, and some use restrictive licenses whilst claiming to be "open-source," which may hinder further innovations on LLMs. To mitigate this issue, we introduce Moxin 7B, a fully open-source LLM developed in accordance with the Model Openness Framework (MOF), a ranked classification system that evaluates AI models based on model completeness and openness, adhering to principles of open science, open source, open data, and open access. Our model achieves the highest MOF classification level of "open science" through the comprehensive release of pre-training code and configurations, training and fine-tuning datasets, and intermediate and final checkpoints. Experiments show that our model achieves superior performance in zero-shot evaluation compared with popular 7B models and performs competitively in few-shot evaluation.
- Abstract(参考訳): 最近、Large Language Models (LLM) は、その人気と能力の急激な上昇により、大きな変革を遂げている。
この進化をリードするのが、GPT-4やGPT-o1のようなプロプライエタリなLLMであり、その顕著なパフォーマンスと汎用性により、AIコミュニティで広く注目を集めている。
同時に、LLaMAやMistralといったオープンソースのLLMは、さまざまなアプリケーションにまたがるモデルのカスタマイズとデプロイが容易なため、LLMの人気が高まっている。
オープンソースLLMは、イノベーションと研究の先例のない機会を提供するが、LCMの商業化は透明性、再現性、安全性に関する懸念を提起している。
多くのオープンソース LLM は、トレーニングコードやデータのような不可欠なコンポーネントを保留することで、基本的な透明性要件を満たすことができず、一部では、LLM のさらなる革新を妨げる "オープンソース" であると主張しながら、制限的なライセンスを使用する。
この問題を緩和するために、モデルオープンネスフレームワーク(MOF)に従って開発された完全にオープンソースなLCMであるMoxin 7Bを紹介します。
本モデルは,事前学習用コードと構成,トレーニングと微調整用データセット,中間チェックポイントと最終チェックポイントの包括的リリースを通じて,"オープンサイエンス"のMOF分類レベルを最大化する。
実験により,本モデルは,一般的な7Bモデルと比較してゼロショット評価において優れた性能を示し,少数ショット評価において競争力を発揮することが示された。
関連論文リスト
- Federated In-Context LLM Agent Learning [3.4757641432843487]
大規模言語モデル(LLM)は、論理的推論、ツールの使用、エージェントとしての外部システムとの相互作用を可能にすることによって、インテリジェントなサービスに革命をもたらした。
本稿では,プライバシ保護型フェデレーション・イン・コンテクスト LLM Agent Learning (FICAL) アルゴリズムを提案する。
その結果、FICALは、他のSOTAベースラインと比較して競争性能が優れており、通信コストの大幅な削減は、$mathbf3.33times105$倍であることがわかった。
論文 参考訳(メタデータ) (2024-12-11T03:00:24Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models [44.848642930797155]
OpenMoEは、完全にオープンソースで再現可能なデコーダのみのMixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)のシリーズである。
本研究は,MoEをベースとしたLLMの方が高密度LLMよりも良好なコスト効率のトレードオフを提供できることを確認した。
MoEモデルにおけるルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性がある。
論文 参考訳(メタデータ) (2024-01-29T12:05:02Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。