論文の概要: Knowledge Transfer from High-Resource to Low-Resource Programming
Languages for Code LLMs
- arxiv url: http://arxiv.org/abs/2308.09895v4
- Date: Tue, 12 Dec 2023 04:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:49:09.012996
- Title: Knowledge Transfer from High-Resource to Low-Resource Programming
Languages for Code LLMs
- Title(参考訳): コードLLMのための高リソースから低リソースプログラミング言語への知識伝達
- Authors: Federico Cassano, John Gouwar, Francesca Lucchetti, Claire
Schlesinger, Carolyn Jane Anderson, Michael Greenberg, Abhinav Jangda, Arjun
Guha
- Abstract要約: 本稿では,半合成データを用いた低リソース言語上でのコードLLMの性能向上に有効な手法を提案する。
このアプローチを適用して,Julia,Lua,OCaml,R,Racketの各トレーニング項目を数万個生成する。
- 参考スコア(独自算出の注目度): 3.165499770934236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, Large Language Models of Code (Code LLMs) have
started to have a significant impact on programming practice. Code LLMs are
also emerging as building blocks for research in programming languages and
software engineering. However, Code LLMs produce impressive results on
programming languages that are well represented in their training data (e.g.,
Java, Python, or JavaScript), but struggle with low-resource languages that
have limited training data available. Low resource languages include OCaml,
Racket, and several others.
This paper presents an effective approach for boosting the performance of
Code LLMs on low-resource languages using semi-synthetic data. Our approach,
MultiPL-T, translates training data from high-resource languages into training
data for low-resource languages in the following way. 1) We use a Code LLM to
synthesize tests for commented code from a high-resource language, filtering
out faulty tests and code with low test coverage. 2) We use a Code LLM to
translate Python code to a target low-resource language, and use tests to
validate the translation. We apply this approach to generate tens of thousands
of validated training items for Julia, Lua, OCaml, R, and Racket. Furthermore,
we use an open model (StarCoderBase) with open training data (The Stack), which
allows us to decontaminate benchmarks, train models without violating licenses,
and run experiments that could not otherwise be done.
With MultiPL-T generated data, we present fine-tuned versions of
StarCoderBase and Code Llama for Julia, Lua, OCaml, R, and Racket. On
established benchmarks (MultiPL-E), these models outperform other open Code
LLMs. The MultiPL-T approach is easy to apply to new languages, and is
significantly more efficient and effective than alternatives such as training
longer.
- Abstract(参考訳): ここ数年、Large Language Models of Code (Code LLM) はプログラミングの実践に大きな影響を与え始めています。
プログラミング言語やソフトウェア工学の研究のためのビルディングブロックとして、コードLLMが登場している。
しかし、Code LLMはトレーニングデータ(例えば、Java、Python、JavaScript)でよく表現されているが、トレーニングデータに制限のある低リソースの言語では苦労しているプログラミング言語に対して印象的な結果をもたらす。
低リソース言語にはOCaml、Racket、その他いくつかのものがある。
本稿では,半合成データを用いた低リソース言語におけるコードLLMの性能向上に有効な手法を提案する。
我々のアプローチであるMultiPL-Tは、ハイソース言語からのトレーニングデータを、以下の方法で低リソース言語のトレーニングデータに変換する。
1) Code LLMを使用して、高ソース言語からのコメント付きコードのテストを合成し、テストカバレッジの低い欠陥テストとコードをフィルタリングします。
2) コードLLMを使用してPythonコードをターゲットとする低リソース言語に翻訳し,テストを使用して翻訳を検証する。
このアプローチを適用して,Julia,Lua,OCaml,R,Racketの各トレーニング項目を数万個生成する。
さらに、オープンモデル(starcoderbase)とオープントレーニングデータ(スタック)を使用して、ベンチマークを廃止し、ライセンスに違反することなくモデルをトレーニングし、さもなければできない実験を実行します。
MultiPL-T 生成データを用いて,Julia,Lua,OCaml,R,Racket 用の StarCoderBase と Code Llama の微調整版を提示する。
確立されたベンチマーク(MultiPL-E)では、これらのモデルは他のオープンコードLLMよりも優れている。
MultiPL-Tアプローチは、新しい言語に簡単に適用でき、トレーニングのような代替手段よりもはるかに効率的で効果的である。
関連論文リスト
- Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language
Models [91.55398541853785]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Exploiting Language Relatedness for Low Web-Resource Language Model
Adaptation: An Indic Languages Study [14.34516262614775]
言語族における言語間の関連性は、LRLのコーパス制限を克服するために悪用される可能性があると論じる。
我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。
論文 参考訳(メタデータ) (2021-06-07T20:43:02Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。