論文の概要: Fine-Tuning Multilingual Language Models for Code Review: An Empirical Study on Industrial C# Projects
- arxiv url: http://arxiv.org/abs/2507.19271v1
- Date: Fri, 25 Jul 2025 13:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.977275
- Title: Fine-Tuning Multilingual Language Models for Code Review: An Empirical Study on Industrial C# Projects
- Title(参考訳): コードレビューのための微調整多言語言語モデル:産業用C#プロジェクトに関する実証的研究
- Authors: Igli Begolli, Meltem Aksoy, Daniel Neider,
- Abstract要約: 本研究では,オープンソース言語モデル(LM)の性能に対する単言語微調整の実証評価について述べる。
CodeReviewer、CodeLlama-7B、DeepSeek-R1-Distillの3つの異なるモデルを、公開ベンチマークと産業リポジトリを組み合わせたC#固有のデータセットで微調整しました。
その結果, 単言語微調整は, 多言語ベースラインと比較してモデルの精度と妥当性を向上することがわかった。
- 参考スコア(独自算出の注目度): 4.3012765978447565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code review is essential for maintaining software quality but often time-consuming and cognitively demanding, especially in industrial environments. Recent advancements in language models (LMs) have opened new avenues for automating core review tasks. This study presents the empirical evaluation of monolingual fine-tuning on the performance of open-source LMs across three key automated code review tasks: Code Change Quality Estimation, Review Comment Generation, and Code Refinement. We fine-tuned three distinct models, CodeReviewer, CodeLlama-7B, and DeepSeek-R1-Distill, on a C\# specific dataset combining public benchmarks with industrial repositories. Our study investigates how different configurations of programming languages and natural languages in the training data affect LM performance, particularly in comment generation. Additionally, we benchmark the fine-tuned models against an automated software analysis tool (ASAT) and human reviewers to evaluate their practical utility in real-world settings. Our results show that monolingual fine-tuning improves model accuracy and relevance compared to multilingual baselines. While LMs can effectively support code review workflows, especially for routine or repetitive tasks, human reviewers remain superior in handling semantically complex or context-sensitive changes. Our findings highlight the importance of language alignment and task-specific adaptation in optimizing LMs for automated code review.
- Abstract(参考訳): コードレビューはソフトウェアの品質を維持するのに不可欠だが、特に産業環境では時間がかかり認知的に要求されることが多い。
言語モデル(LM)の最近の進歩は、コアレビュータスクを自動化するための新しい道を開いた。
本研究は,コード変更品質評価,レビューコメント生成,コードリファインメントという3つの重要な自動コードレビュータスクにおいて,オープンソースLMの性能に関するモノリンガル微調整を実証的に評価する。
CodeReviewer、CodeLlama-7B、DeepSeek-R1-Distillの3つの異なるモデルを、公開ベンチマークと産業リポジトリを組み合わせたC\#固有のデータセットで微調整しました。
本研究では,訓練データ中のプログラミング言語と自然言語の異なる構成が,特にコメント生成におけるLM性能に与える影響について検討した。
さらに,自動ソフトウェア解析ツール(ASAT)と人間レビュアーとを比較検討し,実環境における実用性を評価する。
その結果, 単言語微調整は, 多言語ベースラインと比較してモデルの精度と妥当性を向上することがわかった。
LMは、特にルーチンや反復的なタスクにおいて、コードレビューワークフローを効果的にサポートするが、人間レビュアーは、意味論的に複雑または文脈に敏感な変更を扱うのに優れている。
本研究は,自動コードレビューのためのLMの最適化における言語アライメントとタスク固有の適応の重要性を強調した。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - LLM Benchmarking with LLaMA2: Evaluating Code Development Performance Across Multiple Programming Languages [0.1906498126334485]
本稿では,Llama 2-70Bモデルがプログラミング言語で書かれた科学アプリケーションを自動化する能力について述べる。
コード、ドキュメンテーション、ユニットテストを生成するためのモデルの能力と、既存のコードをプログラミング言語間で翻訳する能力を評価します。
以上の結果から,Llama 2-70Bは,より単純な数値処理のために,構文的に正しい関数コードを生成することが多いが,より複雑で並列化された,あるいは分散計算ではかなりの困難に直面することが示唆された。
論文 参考訳(メタデータ) (2025-03-24T23:46:14Z) - Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。
本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - From Effectiveness to Efficiency: Uncovering Linguistic Bias in Large Language Model-based Code Generation [30.914387085368734]
大規模言語モデル(LLM)はコード生成に有望な能力を示している。
本稿では,英語と中国語のレンズによる潜在的な言語バイアスについて検討する。
論文 参考訳(メタデータ) (2024-06-02T03:22:30Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。