論文の概要: SteloCoder: a Decoder-Only LLM for Multi-Language to Python Code
Translation
- arxiv url: http://arxiv.org/abs/2310.15539v1
- Date: Tue, 24 Oct 2023 06:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:32:48.245619
- Title: SteloCoder: a Decoder-Only LLM for Multi-Language to Python Code
Translation
- Title(参考訳): SteloCoder: Pythonコードへの多言語翻訳のためのデコーダ専用LLM
- Authors: Jialing Pan, Adrien Sad\'e, Jin Kim, Eric Soriano, Guillem Sole,
Sylvain Flamant
- Abstract要約: 我々は,SteloCoderを紹介した。SteloCoderは,言語からPythonへのコード変換のための,デコーダのみのStarCoderベースのシステムである。
SteloCoderは、入力プログラミング言語を指定せずに、C++、C#、JavaScript、Java、PHPからPythonへのコード変換を実現する。
XLCoSTの実験により、SteroCoderは、マルチプログラミング言語からPythonへの翻訳において平均73.76のCodeBLEUスコアを達成した。
- 参考スコア(独自算出の注目度): 1.7183449183902841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent focus on Large Language Models (LLMs), both StarCoder (Li et
al., 2023) and Code Llama (Rozi\`ere et al., 2023) have demonstrated remarkable
performance in code generation. However, there is still a need for improvement
in code translation functionality with efficient training techniques. In
response to this, we introduce SteloCoder, a decoder-only StarCoder-based LLM
designed specifically for multi-programming language-to-Python code
translation. In particular, SteloCoder achieves C++, C#, JavaScript, Java, or
PHP-to-Python code translation without specifying the input programming
language. We modified StarCoder model architecture by incorporating a
Mixture-of-Experts (MoE) technique featuring five experts and a gating network
for multi-task handling. Experts are obtained by StarCoder fine-tuning.
Specifically, we use a Low-Rank Adaptive Method (LoRA) technique, limiting each
expert size as only 0.06% of number of StarCoder's parameters. At the same
time, to enhance training efficiency in terms of time, we adopt curriculum
learning strategy and use self-instruct data for efficient fine-tuning. As a
result, each expert takes only 6 hours to train on one single 80Gb A100 HBM.
With experiments on XLCoST datasets, SteloCoder achieves an average of 73.76
CodeBLEU score in multi-programming language-to-Python translation, surpassing
the top performance from the leaderboard by at least 3.5. This accomplishment
is attributed to only 45M extra parameters with StarCoder as the backbone and
32 hours of valid training on one 80GB A100 HBM. The source code is release
here: https://github.com/sade-adrien/SteloCoder.
- Abstract(参考訳): 最近、Large Language Models (LLMs) に焦点が当てられ、StarCoder (Li et al., 2023) と Code Llama (Rozi\`ere et al., 2023) の両方がコード生成において顕著なパフォーマンスを示している。
しかし、効率的なトレーニング技術によるコード翻訳機能の改善はいまだに必要である。
これに対応するために,マルチプログラミング言語からpythonコードへの翻訳用に設計された,デコーダ専用のstarcoderベースのllmであるstelocoderを紹介する。
特にSteroCoderは、入力プログラミング言語を指定せずに、C++、C#、JavaScript、Java、PHPからPythonへのコード変換を実現している。
我々は,5人の専門家とマルチタスク処理のためのゲーティングネットワークを備えたMixture-of-Experts (MoE)技術を組み込んだStarCoderモデルアーキテクチャを改良した。
専門家はstarcoderの微調整によって得られる。
具体的には,各専門家のサイズをStarCoderのパラメータの0.06%に制限するローランド適応手法(LoRA)を用いる。
同時に、時間的学習効率を向上させるため、カリキュラム学習戦略を採用し、自己指導データを用いて効率的な微調整を行う。
その結果、各専門家は1つの80Gb A100 HBMでトレーニングするのにわずか6時間しかかからない。
XLCoSTデータセットの実験により、SteroCoderは、マルチプログラミング言語からPythonへの翻訳において平均73.76のCodeBLEUスコアを達成し、リーダーボードの最高パフォーマンスを3.5以上上回った。
この成果は、StarCoderをバックボーンとし、1つの80GB A100 HBMで32時間の有効なトレーニングを行うという、わずか4500万の余剰パラメータによるものである。
ソースコードはhttps://github.com/sade-adrien/stelocoder.com/。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Code Llama: Open Foundation Models for Code [93.30115424203868]
私たちはLlama 2.0をベースにしたコードのための大規模言語モデルのファミリーであるCode Llamaをリリースした。
Code Llamaは、いくつかのコードベンチマークで、オープンモデルの最先端のパフォーマンスに達する。
私たちはCode Llamaをパーミッシブライセンスでリリースし、研究と商用の両方の使用を可能にします。
論文 参考訳(メタデータ) (2023-08-24T17:39:13Z) - Knowledge Transfer from High-Resource to Low-Resource Programming Languages for Code LLMs [2.9242435458494445]
本稿では,半合成データを用いた低リソース言語上でのコードLLMの性能向上に有効な手法を提案する。
このアプローチを適用して,Julia,Lua,OCaml,R,Racketの各トレーニング項目を数万個生成する。
論文 参考訳(メタデータ) (2023-08-19T03:19:01Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - StarCoder: may the source be with you! [79.93915935620798]
BigCodeコミュニティでは、StarCoderとStarCoderBaseを紹介している。
StarCoderBaseは、寛容にライセンスされたGitHubリポジトリの大規模なコレクションであるThe Stackからソースされた1兆のトークンに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-05-09T08:16:42Z) - CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X [50.008474888951525]
コード生成に130億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。
CodeGeeXは、23のプログラミング言語の8500億のトークンで事前訓練されている。
論文 参考訳(メタデータ) (2023-03-30T17:34:01Z) - SantaCoder: don't reach for the stars! [27.050410834027705]
BigCodeプロジェクトは、コードのための大規模言語モデルの責任ある開発に取り組んでいる、オープン・サイエンティフィックなコラボレーションである。
The StackのJava,JavaScript,Pythonサブセットで1.1Bパラメータモデルをトレーニングし,MultiPL-Eのテキスト・トゥ・コードベンチマークで評価する。
私たちの最良のモデルは、MultiPL-EのJava、JavaScript、Pythonの各部分の左から右への生成とインフィルで、以前のオープンソース多言語コード生成モデルより優れています。
論文 参考訳(メタデータ) (2023-01-09T10:52:35Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。