論文の概要: Fully Open Source Moxin-7B Technical Report
- arxiv url: http://arxiv.org/abs/2412.06845v1
- Date: Sun, 08 Dec 2024 02:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:22.080561
- Title: Fully Open Source Moxin-7B Technical Report
- Title(参考訳): 完全なオープンソースMoxin-7B技術レポート
- Authors: Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Xingchen Xu, Yu Huang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang,
- Abstract要約: 大きな言語モデル(LLM)は、その人気と能力の急激な上昇によって、大きな変革を遂げている。
この問題を緩和するために、モデルオープンネスフレームワーク(MOF)に従って開発された完全にオープンソースなLLMであるMoxin 7Bを紹介します。
本モデルは,事前学習コードと構成の包括的リリースを通じて,オープンサイエンスのMOF分類レベルを最大化する。
- 参考スコア(独自算出の注目度): 38.13392000279939
- License:
- Abstract: Recently, Large Language Models (LLMs) have undergone a significant transformation, marked by a rapid rise in both their popularity and capabilities. Leading this evolution are proprietary LLMs like GPT-4 and GPT-o1, which have captured widespread attention in the AI community due to their remarkable performance and versatility. Simultaneously, open-source LLMs, such as LLaMA and Mistral, have made great contributions to the ever-increasing popularity of LLMs due to the ease to customize and deploy the models across diverse applications. Although open-source LLMs present unprecedented opportunities for innovation and research, the commercialization of LLMs has raised concerns about transparency, reproducibility, and safety. Many open-source LLMs fail to meet fundamental transparency requirements by withholding essential components like training code and data, and some use restrictive licenses whilst claiming to be "open-source," which may hinder further innovations on LLMs. To mitigate this issue, we introduce Moxin 7B, a fully open-source LLM developed in accordance with the Model Openness Framework (MOF), a ranked classification system that evaluates AI models based on model completeness and openness, adhering to principles of open science, open source, open data, and open access. Our model achieves the highest MOF classification level of "open science" through the comprehensive release of pre-training code and configurations, training and fine-tuning datasets, and intermediate and final checkpoints. Experiments show that our model achieves superior performance in zero-shot evaluation compared with popular 7B models and performs competitively in few-shot evaluation.
- Abstract(参考訳): 最近、Large Language Models (LLM) は、その人気と能力の急激な上昇により、大きな変革を遂げている。
この進化をリードするのが、GPT-4やGPT-o1のようなプロプライエタリなLLMであり、その顕著なパフォーマンスと汎用性により、AIコミュニティで広く注目を集めている。
同時に、LLaMAやMistralといったオープンソースのLLMは、さまざまなアプリケーションにまたがるモデルのカスタマイズとデプロイが容易なため、LLMの人気が高まっている。
オープンソースLLMは、イノベーションと研究の先例のない機会を提供するが、LCMの商業化は透明性、再現性、安全性に関する懸念を提起している。
多くのオープンソース LLM は、トレーニングコードやデータのような不可欠なコンポーネントを保留することで、基本的な透明性要件を満たすことができず、一部では、LLM のさらなる革新を妨げる "オープンソース" であると主張しながら、制限的なライセンスを使用する。
この問題を緩和するために、モデルオープンネスフレームワーク(MOF)に従って開発された完全にオープンソースなLCMであるMoxin 7Bを紹介します。
本モデルは,事前学習用コードと構成,トレーニングと微調整用データセット,中間チェックポイントと最終チェックポイントの包括的リリースを通じて,"オープンサイエンス"のMOF分類レベルを最大化する。
実験により,本モデルは,一般的な7Bモデルと比較してゼロショット評価において優れた性能を示し,少数ショット評価において競争力を発揮することが示された。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Evaluating Language Models for Generating and Judging Programming Feedback [4.743413681603463]
大規模言語モデル(LLM)は、幅広い領域で研究と実践を変革してきた。
我々は,オープンソースのLCMのプログラミング課題に対する高品質なフィードバック生成における効率性を評価する。
論文 参考訳(メタデータ) (2024-07-05T21:44:11Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Aloe: A Family of Fine-tuned Open Healthcare LLMs [0.0]
そこで我々は,オープン医療LLMの規模内での競争力が高いAloeファミリーを紹介した。
Aloeモデルはアライメントフェーズを実行し、ポリシーに準拠した最初のオープンヘルスケア LLM の1つになった。
推論におけるLLMの限界を探るため,いくつかの先進的な技術戦略について検討する。
論文 参考訳(メタデータ) (2024-05-03T07:14:07Z) - The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence [0.0]
モデルの完全性とオープン性に基づいて機械学習モデルを評価する3階層分類システムであるモデルオープンネスフレームワーク(MOF)を紹介する。
各MOFクラスに対して、モデル開発ライフサイクルのコード、データ、ドキュメントコンポーネントを定義します。
さらに、モデルオープンネスツール(MOT)は、MOF分類システムに対するモデルのオープン性と完全性を評価するために、ユーザフレンドリーなリファレンス実装を提供する。
論文 参考訳(メタデータ) (2024-03-20T17:47:08Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LLM360: Towards Fully Transparent Open-Source LLMs [89.05970416013403]
LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。
LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
論文 参考訳(メタデータ) (2023-12-11T17:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。