論文の概要: Revisiting the Role of Natural Language Code Comments in Code Translation
- arxiv url: http://arxiv.org/abs/2601.16661v1
- Date: Fri, 23 Jan 2026 11:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.661366
- Title: Revisiting the Role of Natural Language Code Comments in Code Translation
- Title(参考訳): コード翻訳における自然言語コードコメントの役割の再考
- Authors: Monika Gupta, Ajay Meena, Anamitra Roy Choudhury, Vijay Arya, Srikanta Bedathur,
- Abstract要約: 本稿では,コメントが翻訳性能に与える影響について,大規模な実証的研究を行った。
その結果,コードコメントが翻訳精度を大幅に向上させるという強い証拠が得られた。
コード翻訳手法であるCOMMENTRAを提案し,LLMに基づくコード翻訳の性能を2倍に向上させることができることを示した。
- 参考スコア(独自算出の注目度): 9.040689433522624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of large language models (LLMs) has ushered in a new era in automated code translation across programming languages. Since most code-specific LLMs are pretrained on well-commented code from large repositories like GitHub, it is reasonable to hypothesize that natural language code comments could aid in improving translation quality. Despite their potential relevance, comments are largely absent from existing code translation benchmarks, rendering their impact on translation quality inadequately characterised. In this paper, we present a large-scale empirical study evaluating the impact of comments on translation performance. Our analysis involves more than $80,000$ translations, with and without comments, of $1100+$ code samples from two distinct benchmarks covering pairwise translations between five different programming languages: C, C++, Go, Java, and Python. Our results provide strong evidence that code comments, particularly those that describe the overall purpose of the code rather than line-by-line functionality, significantly enhance translation accuracy. Based on these findings, we propose COMMENTRA, a code translation approach, and demonstrate that it can potentially double the performance of LLM-based code translation. To the best of our knowledge, our study is the first in terms of its comprehensiveness, scale, and language coverage on how to improve code translation accuracy using code comments.
- Abstract(参考訳): 大規模言語モデル(LLMs)の出現は、プログラミング言語間の自動コード翻訳の新しい時代を後押ししている。
ほとんどのコード固有のLLMは、GitHubのような大規模なリポジトリから用意されたコードで事前訓練されているため、自然言語のコードコメントが翻訳品質を改善するのに役立つと仮定するのは妥当である。
その潜在的な関連性にもかかわらず、コメントは既存のコード翻訳ベンチマークにはほとんど欠落しており、翻訳品質への影響は不適切に特徴づけられている。
本稿では,コメントが翻訳性能に与える影響について,大規模な実証的研究を行った。
私たちの分析では、C、C++、Go、Java、Pythonの5つの異なる言語間のペアワイズ翻訳をカバーする2つのベンチマークから、80,000ドル以上の翻訳と100ドル以上のコードサンプルを用意しています。
その結果,コードコメント,特に行ごとの機能よりもコード全体の目的を記述したコメントは,翻訳精度を大幅に向上させるという強い証拠が得られた。
これらの結果に基づき,コード翻訳手法であるCOMMENTRAを提案し,LLMに基づくコード翻訳の性能を2倍に向上させる可能性を実証した。
私たちの知識を最大限に活用するために、コードコメントによるコード翻訳精度の向上に関する包括性、スケール、言語カバレッジに関して、私たちの研究は初めてです。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [57.604506522287814]
既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。
機能的セマンティクスや構文構造,変数依存性といった実行可能性表現を活用するために,ExeCoderを提案する。
ExeCoderは、既存のオープンソースコードLLMを10.88%以上、38.78%以上、27.44%以上、42.97%以上という、2つのメトリクスで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-30T16:18:52Z) - Specification-Driven Code Translation Powered by Large Language Models: How Far Are We? [8.534857249221844]
コード翻訳の中間表現としてNL-specificationを用いる。
以上の結果から,NL特異化だけでは性能改善には至らないことが明らかとなった。
コード翻訳の性能解析に加えて,翻訳コードの品質についても検討する。
論文 参考訳(メタデータ) (2024-12-05T20:10:21Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Towards Translating Real-World Code with LLMs: A Study of Translating to Rust [13.743967357458287]
大規模言語モデル(LLM)は、ほとんどのプログラミング言語でコードを記述する能力のため、コード翻訳において有望であることを示す。
実世界のオープンソースプロジェクトから抽出したコードについて検討する。
FLOURINEは、差分ファジィを使用して、Rust翻訳が元のソースプログラムと同等のI/Oかどうかをチェックする、エンドツーエンドのコード変換ツールである。
論文 参考訳(メタデータ) (2024-05-19T10:54:03Z) - Lost in Translation: A Study of Bugs Introduced by Large Language Models
while Translating Code [5.915447908295047]
コード翻訳における一般LLMとコードLLMの能力について,大規模な実証的研究を行った。
私たちの研究は、3つのベンチマークと2つの実世界のプロジェクトからの1,700のコードサンプルの翻訳に関するものです。
LLMの正しい翻訳は2.1%から47.3%であることがわかった。
論文 参考訳(メタデータ) (2023-08-06T13:33:13Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。