論文の概要: Lost in Translation: A Study of Bugs Introduced by Large Language Models
while Translating Code
- arxiv url: http://arxiv.org/abs/2308.03109v3
- Date: Tue, 16 Jan 2024 11:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:57:25.096870
- Title: Lost in Translation: A Study of Bugs Introduced by Large Language Models
while Translating Code
- Title(参考訳): lost in translation: コード翻訳中に大規模言語モデルによって導入されたバグの研究
- Authors: Rangeet Pan, Ali Reza Ibrahimzada, Rahul Krishna, Divya Sankar,
Lambert Pouguem Wassi, Michele Merler, Boris Sobolev, Raju Pavuluri, Saurabh
Sinha, Reyhaneh Jabbarvand
- Abstract要約: コード翻訳における一般LLMとコードLLMの能力について,大規模な実証的研究を行った。
私たちの研究は、3つのベンチマークと2つの実世界のプロジェクトからの1,700のコードサンプルの翻訳に関するものです。
LLMの正しい翻訳は2.1%から47.3%であることがわかった。
- 参考スコア(独自算出の注目度): 5.915447908295047
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code translation aims to convert source code from one programming language
(PL) to another. Given the promising abilities of large language models (LLMs)
in code synthesis, researchers are exploring their potential to automate code
translation. The prerequisite for advancing the state of LLM-based code
translation is to understand their promises and limitations over existing
techniques. To that end, we present a large-scale empirical study to
investigate the ability of general LLMs and code LLMs for code translation
across pairs of different languages, including C, C++, Go, Java, and Python.
Our study, which involves the translation of 1,700 code samples from three
benchmarks and two real-world projects, reveals that LLMs are yet to be
reliably used to automate code translation -- with correct translations ranging
from 2.1% to 47.3% for the studied LLMs. Further manual investigation of
unsuccessful translations identifies 15 categories of translation bugs. We also
compare LLM-based code translation with traditional non-LLM-based approaches.
Our analysis shows that these two classes of techniques have their own
strengths and weaknesses. Finally, insights from our study suggest that
providing more context to LLMs during translation can help them produce better
results. To that end, we propose a prompt-crafting approach based on the
symptoms of erroneous translations; this improves the performance of LLM-based
code translation by 5.5% on average. Our study is the first of its kind, in
terms of scale and breadth, that provides insights into the current limitations
of LLMs in code translation and opportunities for improving them. Our dataset
-- consisting of 1,700 code samples in five PLs with 10K+ tests, 43K+
translated code, 1,748 manually labeled bugs, and 1,365 bug-fix pairs -- can
help drive research in this area.
- Abstract(参考訳): コード翻訳は、ソースコードをあるプログラミング言語(PL)から別のプログラミング言語に変換することを目的としている。
コード合成における大きな言語モデル(LLM)の有望な能力を考えると、研究者はコード翻訳を自動化する可能性を探っている。
LLMベースのコード翻訳の進歩の前提は、既存の技術に対する彼らの約束と限界を理解することである。
そこで本研究では,C言語,C++言語,Go言語,Java言語,Python言語など,多言語間のコード翻訳における一般的なLLMとコードLLMの能力について,大規模な実証的研究を行った。
3つのベンチマークと2つの実世界のプロジェクトからの1,700のコードサンプルの翻訳を含む我々の研究は、LLMがまだコードの翻訳を自動化するために確実に使われていないことを明らかにしている。
翻訳失敗のさらなる手作業による調査では、翻訳バグの15のカテゴリが特定されている。
LLMベースのコード翻訳と従来の非LLMベースのアプローチを比較した。
分析の結果,これら2つの手法はそれぞれの強みと弱みを有することがわかった。
最後に、我々の研究から得た知見は、翻訳中にLLMにより多くのコンテキストを提供することで、より良い結果が得られることを示唆している。
そこで本研究では,誤訳の症状に基づくプロンプト作成手法を提案し,LLMに基づくコード翻訳の性能を平均5.5%向上させる。
私たちの研究は、コード翻訳におけるllmの現在の制限と改善の機会に関する洞察を提供する、スケールと幅という観点で最初のものです。
私たちのデータセットは,5つのPLに1,700のコードサンプルと10K以上のテスト,43K以上の翻訳コード,1748の手作業によるラベル付きバグ,1365のバグフィックスペアで構成されています。
関連論文リスト
- Program Decomposition and Translation with Static Analysis [0.0]
大規模言語モデル(LLM)の文脈ウィンドウに対する方法レベルのプログラム分解の効果を評価する。
そこで本研究では,コンテキスト外問題により本来実行できなかった非常に大きなファイルの翻訳を可能にする方法について検討する。
論文 参考訳(メタデータ) (2024-01-22T23:49:32Z) - Adapting Large Language Models for Document-Level Machine Translation [49.74879186939818]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large
Language Models [37.8941430624661]
本研究では,バイナリコード理解のための大規模言語モデル (LLM) の可能性について検討する。
BinSumは557K以上のバイナリ関数の包括的なベンチマークとデータセットである。
また,従来の完全マッチング手法を超越した意味的類似度尺度を提案する。
論文 参考訳(メタデータ) (2023-12-15T08:32:28Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Multilingual Machine Translation with Large Language Models: Empirical
Results and Analysis [108.37242622164709]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Towards Generating Functionally Correct Code Edits from Natural Language
Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。
本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文 参考訳(メタデータ) (2023-04-07T18:58:33Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。