論文の概要: StarCoder: may the source be with you!
- arxiv url: http://arxiv.org/abs/2305.06161v1
- Date: Tue, 9 May 2023 08:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:53:41.688197
- Title: StarCoder: may the source be with you!
- Title(参考訳): StarCoder: ソースはあなたにありますか?
- Authors: Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis
Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim,
Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier
Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, Jo\~ao Monteiro, Oleh
Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Zebaze, Ming-Ho Yee, Logesh
Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang,
Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco
Zocca, Manan Dey, Zhihan Zhang, Nour Fahmy, Urvashi Bhattacharyya, Wenhao Yu,
Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov,
Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger,
Hailey Schoelkopf, Jan Ebert, Tri Dao, Mayank Mishra, Alex Gu, Jennifer
Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor,
Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Mu\~noz
Ferrandis, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de
Vries
- Abstract要約: BigCodeコミュニティでは、StarCoderとStarCoderBaseを紹介している。
StarCoderBaseは、寛容にライセンスされたGitHubリポジトリの大規模なコレクションであるThe Stackからソースされた1兆のトークンに基づいてトレーニングされている。
- 参考スコア(独自算出の注目度): 44.08237104888094
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The BigCode community, an open-scientific collaboration working on the
responsible development of Large Language Models for Code (Code LLMs),
introduces StarCoder and StarCoderBase: 15.5B parameter models with 8K context
length, infilling capabilities and fast large-batch inference enabled by
multi-query attention. StarCoderBase is trained on 1 trillion tokens sourced
from The Stack, a large collection of permissively licensed GitHub repositories
with inspection tools and an opt-out process. We fine-tuned StarCoderBase on
35B Python tokens, resulting in the creation of StarCoder. We perform the most
comprehensive evaluation of Code LLMs to date and show that StarCoderBase
outperforms every open Code LLM that supports multiple programming languages
and matches or outperforms the OpenAI code-cushman-001 model. Furthermore,
StarCoder outperforms every model that is fine-tuned on Python, can be prompted
to achieve 40\% pass@1 on HumanEval, and still retains its performance on other
programming languages. We take several important steps towards a safe
open-access model release, including an improved PII redaction pipeline and a
novel attribution tracing tool, and make the StarCoder models publicly
available under a more commercially viable version of the Open Responsible AI
Model license.
- Abstract(参考訳): コードのための大規模言語モデル(コードllms)の責任ある開発に取り組んでいるオープン科学的なコラボレーションであるbigcode communityでは、starcoderとstarcoderbaseを紹介している。
starcoderbaseは、スタックからソースされた1兆個のトークン、検査ツールとオプトアウトプロセスを備えた許容ライセンスのgithubリポジトリの大規模なコレクションでトレーニングされる。
私たちは、35B PythonトークンでStarCoderBaseを微調整し、StarCoderを作成しました。
これまでに最も包括的なCode LLMの評価を行い、StarCoderBaseが複数のプログラミング言語をサポートし、OpenAIのCode-cushman-001モデルより優れていることを示す。
さらに、StarCoderはPythonで微調整されたすべてのモデルより優れており、HumanEvalで40\%のpass@1を達成するよう促すことができる。
我々は、改良されたPIIリアクションパイプラインと新しい属性追跡ツールを含む、安全なオープンアクセスモデルリリースに向けて、いくつかの重要なステップを取り、StarCoderモデルを、より商業的に実行可能なOpen Responsible AI Modelライセンスの下で公開する。
関連論文リスト
- Granite Code Models: A Family of Open Foundation Models for Code Intelligence [37.946802472358996]
コードでトレーニングされた大規模言語モデル(LLM)は、ソフトウェア開発プロセスに革命をもたらしています。
LLMは、人間のプログラマの生産性を向上させるために、ソフトウェア開発環境に統合されています。
コード生成タスクのためのデコーダのみのコードモデルであるGraniteシリーズを紹介する。
論文 参考訳(メタデータ) (2024-05-07T13:50:40Z) - StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence [42.517055368627226]
私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。
評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。
DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
論文 参考訳(メタデータ) (2024-01-25T14:17:53Z) - SteloCoder: a Decoder-Only LLM for Multi-Language to Python Code
Translation [1.7183449183902841]
我々は,SteloCoderを紹介した。SteloCoderは,言語からPythonへのコード変換のための,デコーダのみのStarCoderベースのシステムである。
SteloCoderは、入力プログラミング言語を指定せずに、C++、C#、JavaScript、Java、PHPからPythonへのコード変換を実現する。
XLCoSTの実験により、SteroCoderは、マルチプログラミング言語からPythonへの翻訳において平均73.76のCodeBLEUスコアを達成した。
論文 参考訳(メタデータ) (2023-10-24T06:04:28Z) - Code Llama: Open Foundation Models for Code [93.30115424203868]
私たちはLlama 2.0をベースにしたコードのための大規模言語モデルのファミリーであるCode Llamaをリリースした。
Code Llamaは、いくつかのコードベンチマークで、オープンモデルの最先端のパフォーマンスに達する。
私たちはCode Llamaをパーミッシブライセンスでリリースし、研究と商用の両方の使用を可能にします。
論文 参考訳(メタデータ) (2023-08-24T17:39:13Z) - WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。
私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文 参考訳(メタデータ) (2023-06-14T15:18:48Z) - SantaCoder: don't reach for the stars! [27.050410834027705]
BigCodeプロジェクトは、コードのための大規模言語モデルの責任ある開発に取り組んでいる、オープン・サイエンティフィックなコラボレーションである。
The StackのJava,JavaScript,Pythonサブセットで1.1Bパラメータモデルをトレーニングし,MultiPL-Eのテキスト・トゥ・コードベンチマークで評価する。
私たちの最良のモデルは、MultiPL-EのJava、JavaScript、Pythonの各部分の左から右への生成とインフィルで、以前のオープンソース多言語コード生成モデルより優れています。
論文 参考訳(メタデータ) (2023-01-09T10:52:35Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。