論文の概要: Code Review Without Borders: Evaluating Synthetic vs. Real Data for Review Recommendation
- arxiv url: http://arxiv.org/abs/2509.04810v1
- Date: Fri, 05 Sep 2025 05:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.482472
- Title: Code Review Without Borders: Evaluating Synthetic vs. Real Data for Review Recommendation
- Title(参考訳): 境界のないコードレビュー - レビューレコメンデーションのための合成 vs. リアルデータの評価
- Authors: Yogev Cohen, Dudi Ohayon, Romy Somkin, Yehudit Aperstein, Alexander Apartsin,
- Abstract要約: LLM(Large Language Models)は、十分なリソースを持つ言語からのコード変更を、未表現言語や新興言語の等価な変更に変換するために用いられる。
実ラベル付きデータで訓練されたモデルと比較した。
このアプローチは、自動コードレビュー機能を急速に進化するテクノロジスタックに拡張するためのスケーラブルなパスを提供する。
- 参考スコア(独自算出の注目度): 37.86790434630698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating the decision of whether a code change requires manual review is vital for maintaining software quality in modern development workflows. However, the emergence of new programming languages and frameworks creates a critical bottleneck: while large volumes of unlabelled code are readily available, there is an insufficient amount of labelled data to train supervised models for review classification. We address this challenge by leveraging Large Language Models (LLMs) to translate code changes from well-resourced languages into equivalent changes in underrepresented or emerging languages, generating synthetic training data where labelled examples are scarce. We assume that although LLMs have learned the syntax and semantics of new languages from available unlabelled code, they have yet to fully grasp which code changes are considered significant or review-worthy within these emerging ecosystems. To overcome this, we use LLMs to generate synthetic change examples and train supervised classifiers on them. We systematically compare the performance of these classifiers against models trained on real labelled data. Our experiments across multiple GitHub repositories and language pairs demonstrate that LLM-generated synthetic data can effectively bootstrap review recommendation systems, narrowing the performance gap even in low-resource settings. This approach provides a scalable pathway to extend automated code review capabilities to rapidly evolving technology stacks, even in the absence of annotated data.
- Abstract(参考訳): コード変更が手作業によるレビューを必要とするかどうかの判断を自動化することは、現代の開発ワークフローにおけるソフトウェア品質の維持に不可欠である。
しかし、新しいプログラミング言語やフレームワークが出現すると、重大なボトルネックが生じる: 大量の未実装のコードがすぐに手に入る一方で、レビュー分類のための教師付きモデルを訓練するためのラベル付きデータが不足している。
この課題に対処するために、LLM(Large Language Models)を活用して、良質なソース言語からのコード変更を、未表現言語や新興言語の等価な変更に変換することで、ラベル付きサンプルが不足した合成トレーニングデータを生成する。
LLMは、利用可能な未実装のコードから新しい言語の構文と意味を学びましたが、これらの新興エコシステムの中でどのコード変更が重要か、それともレビューに値するかは、まだ完全に把握していません。
これを解決するために,LLMを用いて合成変化例を生成し,その上で教師付き分類器を訓練する。
これらの分類器の性能を実際のラベル付きデータで訓練されたモデルと体系的に比較する。
複数のGitHubリポジトリと言語ペアを対象とした実験では、LLM生成合成データがレビューレコメンデーションシステムを効果的にブートストラップし、低リソース設定でもパフォーマンスギャップを狭めることができることを示した。
このアプローチは、アノテートされたデータがなくても、自動コードレビュー機能を急速に進化するテクノロジスタックに拡張するためのスケーラブルなパスを提供する。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Fine-Tuning Multilingual Language Models for Code Review: An Empirical Study on Industrial C# Projects [4.3012765978447565]
本研究では,オープンソース言語モデル(LM)の性能に対する単言語微調整の実証評価について述べる。
CodeReviewer、CodeLlama-7B、DeepSeek-R1-Distillの3つの異なるモデルを、公開ベンチマークと産業リポジトリを組み合わせたC#固有のデータセットで微調整しました。
その結果, 単言語微調整は, 多言語ベースラインと比較してモデルの精度と妥当性を向上することがわかった。
論文 参考訳(メタデータ) (2025-07-25T13:49:24Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs [44.80420740455364]
M2WFは、大規模言語モデルのワンタイムコード生成を改善するためのフレームワークである。
従来の方法とは異なり、キュレートされたデータへの依存を最小限に抑え、さまざまなコーディングシナリオに適応する。
コードとフレームワークはGitHubとHuggingFaceで公開されている。
論文 参考訳(メタデータ) (2025-01-14T07:16:43Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。