Fugu-MT 論文翻訳(概要): Can Programming Languages Boost Each Other via Instruction Tuning?

論文の概要: Can Programming Languages Boost Each Other via Instruction Tuning?

arxiv url: http://arxiv.org/abs/2308.16824v1
Date: Thu, 31 Aug 2023 15:53:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 13:54:24.029849
Title: Can Programming Languages Boost Each Other via Instruction Tuning?
Title（参考訳）: プログラミング言語は命令チューニングによって互いに強化できるのか?
Authors: Daoguang Zan, Ailun Yu, Bo Shen, Jiaxin Zhang, Taihong Chen, Bing Geng, Bei Chen, Jichuan Ji, Yafen Yao, Yongji Wang, Qianxiang Wang
Abstract要約: StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の実験を行います。結果は、プログラミング言語が互いに著しく改善できることを示しています。
参考スコア（独自算出の注目度）: 31.22288649229532
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When human programmers have mastered a programming language, it would be easier when they learn a new programming language. In this report, we focus on exploring whether programming languages can boost each other during the instruction fine-tuning phase of code large language models. We conduct extensive experiments of 8 popular programming languages (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) on StarCoder. Results demonstrate that programming languages can significantly improve each other. For example, CodeM-Python 15B trained on Python is able to increase Java by an absolute 17.95% pass@1 on HumanEval-X. More surprisingly, we found that CodeM-HTML 7B trained on the HTML corpus can improve Java by an absolute 15.24% pass@1. Our training data is released at https://github.com/NL2Code/CodeM.
Abstract（参考訳）: 人間のプログラマがプログラミング言語を習得すれば、新しいプログラミング言語を学ぶのがより簡単になるでしょう。本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。 StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の広範な実験を行います。結果は、プログラミング言語が互いに著しく改善できることを示しています。例えば、pythonでトレーニングされたcodem-python 15bは、humaneval-x上で絶対17.95% pass@1でjavaを増やせる。さらに驚くことに、htmlコーパスでトレーニングされたcodem-html 7bは、絶対15.24%のpass@1でjavaを改善することができる。トレーニングデータはhttps://github.com/nl2code/codemで公開しています。

関連論文リスト

Automated Python Translation [27.835184325945164]
我々は、Pythonの自然なモダリティを他の人間の言語に自動的に翻訳するタスクを紹介します。これはこれらの形式の短縮性を考えると、ユニークな挑戦である。我々は、Pythonを他のヒューマン言語に翻訳する自動パイプラインを作成します。
論文参考訳（メタデータ） (2025-04-15T15:30:22Z)
Benchmarking LLM Code Generation for Audio Programming with Visual Dataflow Languages [1.559169421643164]
ノードベースのプログラミング言語は、メディアアートコーディングドメインでますます人気がある。 LLMベースのコード生成を使用して、創造的なアウトプットの障壁をさらに低くするというのは、エキサイティングな機会です。ビジュアルノードベースのプログラミング言語のためのコード生成の最良の戦略は、まだオープンな問題である。
論文参考訳（メタデータ） (2024-09-01T22:11:23Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
SteloCoder: a Decoder-Only LLM for Multi-Language to Python Code Translation [1.7183449183902841]
我々は,SteloCoderを紹介した。SteloCoderは,言語からPythonへのコード変換のための,デコーダのみのStarCoderベースのシステムである。 SteloCoderは、入力プログラミング言語を指定せずに、C++、C#、JavaScript、Java、PHPからPythonへのコード変換を実現する。 XLCoSTの実験により、SteroCoderは、マルチプログラミング言語からPythonへの翻訳において平均73.76のCodeBLEUスコアを達成した。
論文参考訳（メタデータ） (2023-10-24T06:04:28Z)
Natural Language Embedded Programs for Hybrid Language Symbolic Reasoning [84.12154024070024]
本研究では,数学・記号的推論,自然言語理解,後続の課題に対処するための統合フレームワークとして,自然言語組み込みプログラム(NLEP)を提案する。我々のアプローチは,構造化知識の自然言語表現を含むデータ構造上の関数を定義する完全なPythonプログラムを生成するよう,言語モデルに促す。 Pythonインタープリタが生成されたコードを実行し、出力をプリントする。
論文参考訳（メタデータ） (2023-09-19T17:54:21Z)
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X [50.008474888951525]
コード生成に130億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。 CodeGeeXは、23のプログラミング言語の8500億のトークンで事前訓練されている。
論文参考訳（メタデータ） (2023-03-30T17:34:01Z)
A Scalable and Extensible Approach to Benchmarking NL2Code for 18 Programming Languages [1.6312827172331896]
我々は、自然言語からコード生成のための最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案する。我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの2つを評価した。 MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。
論文参考訳（メタデータ） (2022-08-17T11:16:52Z)
Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文参考訳（メタデータ） (2022-04-25T06:06:08Z)
Lyra: A Benchmark for Turducken-Style Code Generation [15.810088578588028]
ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
論文参考訳（メタデータ） (2021-08-27T07:22:55Z)
AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。 AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文参考訳（メタデータ） (2021-08-26T05:44:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。