論文の概要: 7B Fully Open Source Moxin-LLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement
- arxiv url: http://arxiv.org/abs/2412.06845v3
- Date: Thu, 10 Apr 2025 19:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:17:16.269737
- Title: 7B Fully Open Source Moxin-LLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement
- Title(参考訳): 7B Open Source Moxin-LLM -- 事前トレーニングからGRPOベースの強化学習強化まで
- Authors: Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Weiyan Shi, Xingchen Xu, Yu Huang, Wei Jiang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang,
- Abstract要約: Moxin 7Bは、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に準拠した、完全にオープンソースのLarge Language Models (LLM) である。
トレーニング済みのコードと設定、トレーニングと微調整のデータセット、中間および最終チェックポイントをリリースします。
実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
- 参考スコア(独自算出の注目度): 42.10844666788254
- License:
- Abstract: Recently, Large Language Models (LLMs) have undergone a significant transformation, marked by a rapid rise in both their popularity and capabilities. Leading this evolution are proprietary LLMs like GPT-4 and GPT-o1, which have captured widespread attention in the AI community due to their remarkable performance and versatility. Simultaneously, open-source LLMs, such as LLaMA, have made great contributions to the ever-increasing popularity of LLMs due to the ease to customize and deploy the models across diverse applications. Although open-source LLMs present unprecedented opportunities for innovation and research, the commercialization of LLMs has raised concerns about transparency, reproducibility, and safety. Many open-source LLMs fail to meet fundamental transparency requirements by withholding essential components like training code and data, which may hinder further innovations on LLMs. To mitigate this issue, we introduce Moxin 7B, a fully open-source LLM developed, adhering to principles of open science, open source, open data, and open access. We release the pre-training code and configurations, training and fine-tuning datasets, and intermediate and final checkpoints, aiming to make continuous commitments to fully open-source LLMs. After pre-training and obtaining the base model, we finetune the Moxin Base model with SOTA post-training framework and instruction data to obtain Moxin Instruct model. To improve the reasoning capability, we further finetune our Instruct model with chain-of-thought data distilled from DeepSeek R1, and then use Group Relative Policy Optimization (GRPO), an efficient and effective reinforcement learning algorithm following DeepSeek R1, to finetune our model, leading to the Moxin Reasoning model. Experiments show that our models achieve superior performance in various evaluations such as zero-shot evaluation, few-shot evaluation, and CoT evaluation.
- Abstract(参考訳): 最近、Large Language Models (LLM) は、その人気と能力の急激な上昇により、大きな変革を遂げている。
この進化をリードするのが、GPT-4やGPT-o1のようなプロプライエタリなLLMであり、その顕著なパフォーマンスと汎用性により、AIコミュニティで広く注目を集めている。
同時に、LLaMAのようなオープンソースのLLMは、様々なアプリケーションにまたがるモデルのカスタマイズとデプロイを容易にするため、LLMの人気が高まっている。
オープンソースLLMは、イノベーションと研究の先例のない機会を提供するが、LCMの商業化は透明性、再現性、安全性に関する懸念を提起している。
多くのオープンソース LLM は、トレーニングコードやデータといった重要なコンポーネントを保ちながら、基本的な透明性要件を満たしていないため、LCM のさらなる革新を妨げる可能性がある。
この問題を軽減するため、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に忠実な、完全にオープンソースのLLMであるMoxin 7Bを紹介します。
トレーニング済みのコードと設定、トレーニングと微調整データセット、中間および最終チェックポイントをリリースし、完全なオープンソースLLMへの継続的なコミットメントを目指しています。
ベースモデルの事前学習と取得の後,SOTA後トレーニングフレームワークと命令データを用いてモクシンベースモデルを微調整し,モクシンインストラクションモデルを得る。
そして、DeepSeek R1に続く効率的かつ効果的な強化学習アルゴリズムであるGroup Relative Policy Optimization (GRPO)を用いて、我々のモデルを微調整し、Moxin Reasoningモデルにつながる。
実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
関連論文リスト
- Federated In-Context LLM Agent Learning [3.4757641432843487]
大規模言語モデル(LLM)は、論理的推論、ツールの使用、エージェントとしての外部システムとの相互作用を可能にすることによって、インテリジェントなサービスに革命をもたらした。
本稿では,プライバシ保護型フェデレーション・イン・コンテクスト LLM Agent Learning (FICAL) アルゴリズムを提案する。
その結果、FICALは、他のSOTAベースラインと比較して競争性能が優れており、通信コストの大幅な削減は、$mathbf3.33times105$倍であることがわかった。
論文 参考訳(メタデータ) (2024-12-11T03:00:24Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Evaluating Language Models for Generating and Judging Programming Feedback [4.743413681603463]
大規模言語モデル(LLM)は、幅広い領域で研究と実践を変革してきた。
我々は,オープンソースのLCMのプログラミング課題に対する高品質なフィードバック生成における効率性を評価する。
論文 参考訳(メタデータ) (2024-07-05T21:44:11Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence [0.0]
モデルの完全性とオープン性に基づいて機械学習モデルを評価する3階層分類システムであるモデルオープンネスフレームワーク(MOF)を紹介する。
各MOFクラスに対して、モデル開発ライフサイクルのコード、データ、ドキュメントコンポーネントを定義します。
さらに、モデルオープンネスツール(MOT)は、MOF分類システムに対するモデルのオープン性と完全性を評価するために、ユーザフレンドリーなリファレンス実装を提供する。
論文 参考訳(メタデータ) (2024-03-20T17:47:08Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LLM360: Towards Fully Transparent Open-Source LLMs [89.05970416013403]
LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。
LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
論文 参考訳(メタデータ) (2023-12-11T17:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。