論文の概要: Knowledge Transfer from High-Resource to Low-Resource Programming
Languages for Code LLMs
- arxiv url: http://arxiv.org/abs/2308.09895v2
- Date: Tue, 22 Aug 2023 01:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 10:48:27.510711
- Title: Knowledge Transfer from High-Resource to Low-Resource Programming
Languages for Code LLMs
- Title(参考訳): コードLLMのための高リソースから低リソースプログラミング言語への知識伝達
- Authors: Federico Cassano, John Gouwar, Francesca Lucchetti, Claire
Schlesinger, Carolyn Jane Anderson, Michael Greenberg, Abhinav Jangda, Arjun
Guha
- Abstract要約: 本稿では,半合成データを用いた低リソース言語上でのコードLLMの性能向上に有効な手法を提案する。
我々は、PythonからRacket、OCaml、Luaの新しい数万のトレーニングアイテムを生成するために、我々のアプローチを適用します。
また,MultiPL-T生成データを用いて,ベンチマーク問題に対するRacket,OCaml,Luaの最先端性能を実現するStarCoderBaseの微調整版を提案する。
- 参考スコア(独自算出の注目度): 3.165499770934236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, Large Language Models of Code (Code LLMs) have
started to have a significant impact on programming practice. Code LLMs are
also emerging as a building block for research in programming languages and
software engineering. However, the quality of code produced by a Code LLM
varies significantly by programming languages. Code LLMs produce impressive
results on programming languages that are well represented in their training
data (e.g., Java, Python, or JavaScript), but struggle with low-resource
languages, like OCaml and Racket.
This paper presents an effective approach for boosting the performance of
Code LLMs on low-resource languages using semi-synthetic data. Our approach
generates high-quality datasets for low-resource languages, which can then be
used to fine-tune any pretrained Code LLM. Our approach, called MultiPL-T,
translates training data from high-resource languages into training data for
low-resource languages. We apply our approach to generate tens of thousands of
new, validated training items for Racket, OCaml, and Lua from Python. Moreover,
we use an open dataset (The Stack) and model (StarCoderBase), which allow us to
decontaminate benchmarks and train models on this data without violating the
model license.
With MultiPL-T generated data, we present fine-tuned versions of
StarCoderBase that achieve state-of-the-art performance for Racket, OCaml, and
Lua on benchmark problems. For Lua, our fine-tuned model achieves the same
performance as StarCoderBase as Python -- a very high-resource language -- on
the MultiPL-E benchmarks. For Racket and OCaml, we double their performance on
MultiPL-E, bringing their performance close to higher-resource languages such
as Ruby and C#.
- Abstract(参考訳): ここ数年、Large Language Models of Code (Code LLM) はプログラミングの実践に大きな影響を与え始めています。
コードLLMは、プログラミング言語やソフトウェア工学の研究のためのビルディングブロックとしても登場しています。
しかし、コードLLMが生成するコードの品質はプログラミング言語によって大きく異なる。
コードLLMは、トレーニングデータ(Java、Python、JavaScriptなど)でよく表現されているが、OCamlやRacketのような低リソースの言語と競合するプログラミング言語に対して印象的な結果をもたらす。
本稿では,半合成データを用いた低リソース言語におけるコードLLMの性能向上に有効な手法を提案する。
提案手法では,低リソース言語に対して高品質なデータセットを生成し,事前学習したコードLLMを微調整することができる。
我々のアプローチはMultiPL-Tと呼ばれ、高リソース言語からのトレーニングデータを低リソース言語のトレーニングデータに変換する。
我々は、PythonからRacket、OCaml、Luaの新しい数万のトレーニングアイテムを生成するために、我々のアプローチを適用します。
さらに、オープンデータセット(スタック)とモデル(starcoderbase)を使用して、モデルライセンスに違反することなく、このデータ上のベンチマークやモデルのトレーニングを解除できます。
また,MultiPL-T生成データを用いて,ベンチマーク問題に対するRacket,OCaml,Luaの最先端性能を実現するStarCoderBaseの微調整版を提案する。
Lua氏にとって、当社の微調整モデルは、MultiPL-Eベンチマーク上で、非常に高ソースのPythonであるStarCoderBaseと同じパフォーマンスを実現しています。
RacketとOCamlでは、MultiPL-Eのパフォーマンスを2倍にし、RubyやC#のような高リソース言語にそのパフォーマンスを近づけます。
関連論文リスト
- UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages [2.66269503676104]
大規模言語モデル(LLM)は低リソース言語での性能が低い。
低リソース言語のためのテキストデータを効率的に収集する手法を提案する。
我々のアプローチであるUnifiedCrawlは、最小限の計算リソースを使用して共通のクローをフィルタし、抽出する。
論文 参考訳(メタデータ) (2024-11-21T17:41:08Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Unraveling the Potential of Large Language Models in Code Translation: How Far Are We? [4.616570111453259]
大規模言語モデル(LLM)は様々なタスクにおいて最先端のパフォーマンスを示すが、コード翻訳には苦労する。
コード翻訳タスクにおけるLLMの能力と能力を利用するための大規模な実証的研究を行う。
提案手法は,(1)ソースと対象言語間の中間言語を選択する中間翻訳と,(2)自己生成並列データ上でLPMを微調整する自己学習である。
論文 参考訳(メタデータ) (2024-10-13T12:20:12Z) - Empirical Studies of Parameter Efficient Methods for Large Language Models of Code and Knowledge Transfer to R [1.9799527196428242]
大きなLangauge Models(LLM)は、ソフトウェア工学(SE)コミュニティで注目を集めています。
本研究は,CodeT5 と CodeLlama 上で,PEFT法,LoRA と Compacter を実証研究する。
自然言語モデルからコードへの知識伝達や、学習した知識を目に見えない言語に適応させる能力について、完全に微調整されたモデルと比較して、それらの性能を評価する。
論文 参考訳(メタデータ) (2024-03-16T03:12:45Z) - Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。