論文の概要: Narrow Transformer: Starcoder-Based Java-LM For Desktop
- arxiv url: http://arxiv.org/abs/2407.03941v1
- Date: Thu, 4 Jul 2024 13:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 17:53:13.147248
- Title: Narrow Transformer: Starcoder-Based Java-LM For Desktop
- Title(参考訳): Narrow Transformer: Starcoderベースのデスクトップ用Java-LM
- Authors: Kamalkumar Rathinasamy, Balaji A J, Ankush Kumar, Gagan Gayari, Harshini K, Rajab Ali Mondal, Sreenivasa Raghavan K S, Swayam Singh,
- Abstract要約: 本稿では,StarCoderBase-1.1B上に構築されたオープンソース専用プログラミング言語NT-Java-1.1Bについて述べる。
NT-Java-1.1Bは、MultiPL-EのJavaコードベンチマークで、ベースモデルと同様のサイズのモデルの大半を上回り、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.05442261960914874
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents NT-Java-1.1B, an open-source specialized code language model built on StarCoderBase-1.1B, designed for coding tasks in Java programming. NT-Java-1.1B achieves state-of-the-art performance, surpassing its base model and majority of other models of similar size on MultiPL-E Java code benchmark. While there have been studies on extending large, generic pre-trained models to improve proficiency in specific programming languages like Python, similar investigations on small code models for other programming languages are lacking. Large code models require specialized hardware like GPUs for inference, highlighting the need for research into building small code models that can be deployed on developer desktops. This paper addresses this research gap by focusing on the development of a small Java code model, NT-Java-1.1B, and its quantized versions, which performs comparably to open models around 1.1B on MultiPL-E Java code benchmarks, making them ideal for desktop deployment. This paper establishes the foundation for specialized models across languages and sizes for a family of NT Models.
- Abstract(参考訳): 本稿では,StarCoderBase-1.1B上に構築されたオープンソースの特殊言語モデルNT-Java-1.1Bについて述べる。
NT-Java-1.1Bは、MultiPL-EのJavaコードベンチマークで、ベースモデルと同様のサイズのモデルの大半を上回り、最先端のパフォーマンスを達成する。
Pythonのような特定のプログラミング言語の習熟性を改善するために、大規模で汎用的な事前訓練モデルを拡張する研究があるが、他のプログラミング言語の小さなコードモデルに関する同様の調査は不十分である。
大規模なコードモデルは推論のためにGPUのような特別なハードウェアを必要としており、開発者デスクトップにデプロイ可能な小さなコードモデルを構築する研究の必要性を強調している。
本稿では, NT-Java-1.1B という小型 Java コードモデルとその量子化バージョンの開発に焦点をあて, マルチPL-E の Java コードベンチマーク上で 1.1B 前後のオープンモデルに対してコンパティブルに動作させることで, デスクトップのデプロイに最適であることを示す。
本稿では,NTモデルファミリーの言語やサイズにまたがる特化モデルの基盤を確立する。
関連論文リスト
- StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence [42.517055368627226]
私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。
評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。
DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
論文 参考訳(メタデータ) (2024-01-25T14:17:53Z) - Can Large Language Models Write Parallel Code? [0.5317767988097261]
大規模言語モデルは、ソフトウェア開発の一般的なツールになりつつある。
本稿では,最先端言語モデルによる並列コード生成能力について検討する。
論文 参考訳(メタデータ) (2024-01-23T08:25:12Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - StarCoder: may the source be with you! [79.93915935620798]
BigCodeコミュニティでは、StarCoderとStarCoderBaseを紹介している。
StarCoderBaseは、寛容にライセンスされたGitHubリポジトリの大規模なコレクションであるThe Stackからソースされた1兆のトークンに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-05-09T08:16:42Z) - SantaCoder: don't reach for the stars! [27.050410834027705]
BigCodeプロジェクトは、コードのための大規模言語モデルの責任ある開発に取り組んでいる、オープン・サイエンティフィックなコラボレーションである。
The StackのJava,JavaScript,Pythonサブセットで1.1Bパラメータモデルをトレーニングし,MultiPL-Eのテキスト・トゥ・コードベンチマークで評価する。
私たちの最良のモデルは、MultiPL-EのJava、JavaScript、Pythonの各部分の左から右への生成とインフィルで、以前のオープンソース多言語コード生成モデルより優れています。
論文 参考訳(メタデータ) (2023-01-09T10:52:35Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - JavaBERT: Training a transformer-based model for the Java programming
language [1.599072005190786]
ソフトウェアコードのためのデータ検索パイプラインを導入し,Javaソフトウェアコード上でモデルをトレーニングする。
得られたモデルであるJavaBERTは、マスキングされた言語モデリングタスクに対して高い精度を示す。
論文 参考訳(メタデータ) (2021-10-20T06:49:41Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。