論文の概要: Can Programming Languages Boost Each Other via Instruction Tuning?
- arxiv url: http://arxiv.org/abs/2308.16824v2
- Date: Sun, 3 Sep 2023 08:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 02:09:39.118605
- Title: Can Programming Languages Boost Each Other via Instruction Tuning?
- Title(参考訳): プログラミング言語は命令チューニングによって互いに強化できるのか?
- Authors: Daoguang Zan, Ailun Yu, Bo Shen, Jiaxin Zhang, Taihong Chen, Bing
Geng, Bei Chen, Jichuan Ji, Yafen Yao, Yongji Wang, Qianxiang Wang
- Abstract要約: StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の実験を行います。
結果は、プログラミング言語が互いに著しく改善できることを示しています。
- 参考スコア(独自算出の注目度): 31.22288649229532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When human programmers have mastered a programming language, it would be
easier when they learn a new programming language. In this report, we focus on
exploring whether programming languages can boost each other during the
instruction fine-tuning phase of code large language models. We conduct
extensive experiments of 8 popular programming languages (Python, JavaScript,
TypeScript, C, C++, Java, Go, HTML) on StarCoder. Results demonstrate that
programming languages can significantly improve each other. For example,
CodeM-Python 15B trained on Python is able to increase Java by an absolute
17.95% pass@1 on HumanEval-X. More surprisingly, we found that CodeM-HTML 7B
trained on the HTML corpus can improve Java by an absolute 15.24% pass@1. Our
training data is released at https://github.com/NL2Code/CodeM.
- Abstract(参考訳): 人間のプログラマがプログラミング言語を習得すれば、新しいプログラミング言語を学ぶのがより簡単になるでしょう。
本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。
StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の広範な実験を行います。
結果は、プログラミング言語が互いに著しく改善できることを示しています。
例えば、pythonでトレーニングされたcodem-python 15bは、humaneval-x上で絶対17.95% pass@1でjavaを増やせる。
さらに驚くことに、htmlコーパスでトレーニングされたcodem-html 7bは、絶対15.24%のpass@1でjavaを改善することができる。
トレーニングデータはhttps://github.com/nl2code/codemで公開しています。
関連論文リスト
- Benchmarking LLM Code Generation for Audio Programming with Visual Dataflow Languages [1.559169421643164]
ノードベースのプログラミング言語は、メディアアートコーディングドメインでますます人気がある。
LLMベースのコード生成を使用して、創造的なアウトプットの障壁をさらに低くするというのは、エキサイティングな機会です。
ビジュアルノードベースのプログラミング言語のためのコード生成の最良の戦略は、まだオープンな問題である。
論文 参考訳(メタデータ) (2024-09-01T22:11:23Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - SteloCoder: a Decoder-Only LLM for Multi-Language to Python Code
Translation [1.7183449183902841]
我々は,SteloCoderを紹介した。SteloCoderは,言語からPythonへのコード変換のための,デコーダのみのStarCoderベースのシステムである。
SteloCoderは、入力プログラミング言語を指定せずに、C++、C#、JavaScript、Java、PHPからPythonへのコード変換を実現する。
XLCoSTの実験により、SteroCoderは、マルチプログラミング言語からPythonへの翻訳において平均73.76のCodeBLEUスコアを達成した。
論文 参考訳(メタデータ) (2023-10-24T06:04:28Z) - CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X [50.008474888951525]
コード生成に130億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。
CodeGeeXは、23のプログラミング言語の8500億のトークンで事前訓練されている。
論文 参考訳(メタデータ) (2023-03-30T17:34:01Z) - A Scalable and Extensible Approach to Benchmarking NL2Code for 18
Programming Languages [1.6312827172331896]
我々は、自然言語からコード生成のための最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案する。
我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの2つを評価した。
MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。
論文 参考訳(メタデータ) (2022-08-17T11:16:52Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z) - Lyra: A Benchmark for Turducken-Style Code Generation [15.810088578588028]
ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。
本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。
私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
論文 参考訳(メタデータ) (2021-08-27T07:22:55Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。