論文の概要: Can Programming Languages Boost Each Other via Instruction Tuning?
- arxiv url: http://arxiv.org/abs/2308.16824v1
- Date: Thu, 31 Aug 2023 15:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:54:24.029849
- Title: Can Programming Languages Boost Each Other via Instruction Tuning?
- Title(参考訳): プログラミング言語は命令チューニングによって互いに強化できるのか?
- Authors: Daoguang Zan, Ailun Yu, Bo Shen, Jiaxin Zhang, Taihong Chen, Bing
Geng, Bei Chen, Jichuan Ji, Yafen Yao, Yongji Wang, Qianxiang Wang
- Abstract要約: StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の実験を行います。
結果は、プログラミング言語が互いに著しく改善できることを示しています。
- 参考スコア(独自算出の注目度): 31.22288649229532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When human programmers have mastered a programming language, it would be
easier when they learn a new programming language. In this report, we focus on
exploring whether programming languages can boost each other during the
instruction fine-tuning phase of code large language models. We conduct
extensive experiments of 8 popular programming languages (Python, JavaScript,
TypeScript, C, C++, Java, Go, HTML) on StarCoder. Results demonstrate that
programming languages can significantly improve each other. For example,
CodeM-Python 15B trained on Python is able to increase Java by an absolute
17.95% pass@1 on HumanEval-X. More surprisingly, we found that CodeM-HTML 7B
trained on the HTML corpus can improve Java by an absolute 15.24% pass@1. Our
training data is released at https://github.com/NL2Code/CodeM.
- Abstract(参考訳): 人間のプログラマがプログラミング言語を習得すれば、新しいプログラミング言語を学ぶのがより簡単になるでしょう。
本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。
StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の広範な実験を行います。
結果は、プログラミング言語が互いに著しく改善できることを示しています。
例えば、pythonでトレーニングされたcodem-python 15bは、humaneval-x上で絶対17.95% pass@1でjavaを増やせる。
さらに驚くことに、htmlコーパスでトレーニングされたcodem-html 7bは、絶対15.24%のpass@1でjavaを改善することができる。
トレーニングデータはhttps://github.com/nl2code/codemで公開しています。
関連論文リスト
- SteloCoder: a Decoder-Only LLM for Multi-Language to Python Code
Translation [1.7183449183902841]
我々は,SteloCoderを紹介した。SteloCoderは,言語からPythonへのコード変換のための,デコーダのみのStarCoderベースのシステムである。
SteloCoderは、入力プログラミング言語を指定せずに、C++、C#、JavaScript、Java、PHPからPythonへのコード変換を実現する。
XLCoSTの実験により、SteroCoderは、マルチプログラミング言語からPythonへの翻訳において平均73.76のCodeBLEUスコアを達成した。
論文 参考訳(メタデータ) (2023-10-24T06:04:28Z) - Natural Language Embedded Programs for Hybrid Language Symbolic
Reasoning [86.92053166457116]
本研究では,数学・記号的推論,自然言語理解,後続の課題に対処するための統合フレームワークとして,自然言語組み込みプログラム(NLEP)を提案する。
我々のアプローチは,構造化知識の自然言語表現を含むデータ構造上の関数を定義する完全なPythonプログラムを生成するよう,言語モデルに促す。
Pythonインタープリタが生成されたコードを実行し、出力をプリントする。
論文 参考訳(メタデータ) (2023-09-19T17:54:21Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Syntax and Domain Aware Model for Unsupervised Program Translation [23.217899398362206]
プログラム翻訳のための構文とドメイン認識モデルであるSDA-Transを提案する。
構文構造とドメイン知識を活用して、言語間転送能力を向上する。
Python、Java、C++間の関数変換タスクの実験結果は、SDA-Transが多くの大規模事前学習モデルより優れていることを示している。
論文 参考訳(メタデータ) (2023-02-08T06:54:55Z) - A Scalable and Extensible Approach to Benchmarking NL2Code for 18
Programming Languages [1.6312827172331896]
我々は、自然言語からコード生成のための最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案する。
我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの2つを評価した。
MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。
論文 参考訳(メタデータ) (2022-08-17T11:16:52Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z) - Lyra: A Benchmark for Turducken-Style Code Generation [15.810088578588028]
ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。
本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。
私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
論文 参考訳(メタデータ) (2021-08-27T07:22:55Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。