Fugu-MT 論文翻訳(概要): Automated Code Review Using Large Language Models at Ericsson: An Experience Report

論文の概要: Automated Code Review Using Large Language Models at Ericsson: An Experience Report

arxiv url: http://arxiv.org/abs/2507.19115v2
Date: Thu, 31 Jul 2025 14:34:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 13:02:07.675031
Title: Automated Code Review Using Large Language Models at Ericsson: An Experience Report
Title（参考訳）: Ericssonの大規模言語モデルを用いたコードレビューの自動化
Authors: Shweta Ramesh, Joy Bose, Hamender Singh, A K Raghavan, Sujoy Roychowdhury, Giriprasad Sridhara, Nishrith Saini, Ricardo Britto,
Abstract要約: Ericssonのコードレビュープロセスを自動化するために、Large Language Modelsを使った経験について説明する。次に、コードレビューツールと奨励的な結果を評価するための、経験豊富な開発者との予備実験について説明する。
参考スコア（独自算出の注目度）: 3.82053496282075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code review is one of the primary means of assuring the quality of released software along with testing and static analysis. However, code review requires experienced developers who may not always have the time to perform an in-depth review of code. Thus, automating code review can help alleviate the cognitive burden on experienced software developers allowing them to focus on their primary activities of writing code to add new features and fix bugs. In this paper, we describe our experience in using Large Language Models towards automating the code review process in Ericsson. We describe the development of a lightweight tool using LLMs and static program analysis. We then describe our preliminary experiments with experienced developers in evaluating our code review tool and the encouraging results.
Abstract（参考訳）: コードレビューは、テストと静的解析とともに、リリースされているソフトウェアの品質を保証するための主要な手段の1つである。しかし、コードレビューには経験豊富な開発者が必要です。このように、コードレビューの自動化は、経験豊富なソフトウェア開発者に対する認知的負担を軽減するのに役立つ。本稿では,Ericssonにおけるコードレビュープロセスの自動化に向けたLarge Language Modelsの使用経験について述べる。 LLMと静的プログラム解析を用いた軽量ツールの開発について述べる。次に、コードレビューツールと奨励的な結果を評価するための、経験豊富な開発者との予備実験について説明する。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword? [14.970843824847956]
私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。本研究は,LLMが自動認識する問題の大部分をレビュアが有効とみなし,自動化されたレビューを出発点として利用できることが,彼らの行動に強く影響していることを示す。しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。
論文参考訳（メタデータ） (2024-11-18T09:24:01Z)
Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文参考訳（メタデータ） (2024-10-29T12:21:23Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
Predicting Expert Evaluations in Software Code Reviews [8.012861163935904]
本稿では,その複雑さや主観性から回避されるコードレビューの側面を自動化するアルゴリズムモデルを提案する。手作業によるレビューを置き換える代わりに、私たちのモデルは、レビュアーがより影響力のあるタスクに集中するのに役立つ洞察を追加します。
論文参考訳（メタデータ） (2024-09-23T16:01:52Z)
Leveraging Reviewer Experience in Code Review Comment Generation [11.224317228559038]
私たちは、自然言語のコードレビューを提供する際に、人間のレビュアーを模倣するためにディープラーニングモデルを訓練します。生成したレビューの品質は、モデルトレーニングで使用されるオープンソースのコードレビューデータの品質のため、まだ最適化されていない。本稿では,レビュー品質の指標として,過去のレビュアのオーサリングとレビューを活かした経験学習手法を提案する。
論文参考訳（メタデータ） (2024-09-17T07:52:50Z)
Improving Automated Code Reviews: Learning from Experience [12.573740138977065]
本研究では,自動コードレビューモデルから高品質なレビューを生成できるかどうかを検討する。経験を意識したオーバーサンプリングは、レビューの正確性、情報レベル、有意義性を高めることができる。
論文参考訳（メタデータ） (2024-02-06T07:48:22Z)
A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-05T19:23:34Z)
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文参考訳（メタデータ） (2023-05-19T15:19:44Z)
CodeReviewer: Pre-Training for Automating Code Review Activities [36.40557768557425]
本研究は,コードレビューシナリオにおけるタスクの事前学習技術を活用することに焦点を当てる。私たちは、最も人気のある9つのプログラミング言語で、オープンソースのプロジェクトから、現実世界のコード変更とコードレビューの大規模なデータセットを収集します。コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
論文参考訳（メタデータ） (2022-03-17T05:40:13Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。