論文の概要: Understanding the Effectiveness of Large Language Models in Code
Translation
- arxiv url: http://arxiv.org/abs/2308.03109v1
- Date: Sun, 6 Aug 2023 13:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 15:10:14.461724
- Title: Understanding the Effectiveness of Large Language Models in Code
Translation
- Title(参考訳): コード翻訳における大規模言語モデルの有効性の理解
- Authors: Rangeet Pan, Ali Reza Ibrahimzada, Rahul Krishna, Divya Sankar,
Lambert Pouguem Wassi, Michele Merler, Boris Sobolev, Raju Pavuluri, Saurabh
Sinha, Reyhaneh Jabbarvand
- Abstract要約: 本稿では,大規模言語モデル(LLM)のコード翻訳能力について,大規模な実証的研究を行った。
私たちの分析では、3つの異なるベンチマークと実世界のプロジェクトから1,700のコードサンプルを翻訳しています。
我々の研究は、コード翻訳におけるLLMの現在の限界についての洞察を提供する、その規模と幅の点で、最初のものである。
- 参考スコア(独自算出の注目度): 5.915447908295047
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code translation aims to convert source code from one programming language
(PL) to another. Given the promising abilities of large language models (LLMs)
in code synthesis, researchers are actively exploring their potential to
automate code translation, i.e., generating code in target PL from its
equivalent in another PL. The pre-requisite for advancing the state of
LLM-based code translation is to understand their limitations. To that end, we
present a large-scale empirical study to investigate the ability of LLMs,
including general LLMs and code LLMs, for code translation across pairs of
different languages, including C, C++, Go, Java, and Python. Our analysis
involves the translation of 1,700 code samples from three distinct benchmarks
and real-world projects, revealing LLMs are yet to be reliably used to automate
code translation -- with incorrect translations ranging from 52.7% to 97.9%
across the studied LLMs. Further manual investigation of unsuccessful
translations among all PLs identifies 14 root causes for translation bugs.
Based on the insights from the empirical study, we propose a prompt-crafting
approach to provide additional context for LLMs, improving the performance of
LLM-based code translation by 5.5% on average across different PLs, LLMs, and
benchmarks. Our study is the first of its kind, in terms of its scale and
breadth, that provides insights into the current limitations of LLMs in code
translation and opportunities for improving them. Our collected extensive
dataset -- consisting of 1,700 code samples written in five PLs with 10K+
tests, 43K+ translated code, 1,725 manually labeled bugs, and 1,365 bug-fix
pairs generated using LLMs -- can help drive research in this area.
- Abstract(参考訳): コード翻訳は、ソースコードをあるプログラミング言語(PL)から別のプログラミング言語に変換することを目的としている。
コード合成における大規模言語モデル(llms)の有望な能力を考えると、研究者はコード翻訳を自動化する可能性、すなわち、他のplで同等のコードからターゲットplでコードを生成する可能性を積極的に探っている。
LLMベースのコード翻訳の進歩の前提条件は、それらの制限を理解することである。
そこで本研究では,C言語,C++言語,Go言語,Java言語,Python言語など,多言語間のコード翻訳において,汎用LLMやコードLLMなどのLLMの能力について,大規模な実証研究を行った。
我々の分析では、3つの異なるベンチマークと実世界のプロジェクトから1,700のコードサンプルを翻訳し、LLMがコード翻訳の自動化にまだ確実に使われていないことを明らかにした。
全PLの翻訳失敗に関するさらなる手作業による調査では、翻訳バグの14の根本原因が特定されている。
実験的な研究から得られた知見に基づいて,LLMに付加的なコンテキストを提供することにより,PL,LLM,ベンチマーク間で平均5.5%のLLMベースのコード翻訳性能を向上させることを提案する。
我々の研究は、その規模と幅の点で、コード翻訳におけるLLMの現在の限界とそれらを改善する機会についての洞察を提供する最初のものである。
10k以上のテストを含む5つのplで記述された1,700のコードサンプル、43k以上の翻訳コード、1,725の手動ラベル付きバグ、および1,365のバグフィックスペアで構成された広範なデータセットは、この領域の研究の推進に役立ちます。
関連論文リスト
- Exploring and Unleashing the Power of Large Language Models in Automated Code Translation [40.25727029618665]
本稿では,自動翻訳タスクのための多種多様なLLMと学習ベーストランスパイラについて検討する。
最近の3つのLLMはUniTransでテストされており、いずれも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-23T00:49:46Z) - Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。
この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Adapting Large Language Models for Document-Level Machine Translation [49.74879186939818]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Multilingual Machine Translation with Large Language Models: Empirical
Results and Analysis [108.37242622164709]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。