Fugu-MT 論文翻訳(概要): Predicting Expert Evaluations in Software Code Reviews

論文の概要: Predicting Expert Evaluations in Software Code Reviews

arxiv url: http://arxiv.org/abs/2409.15152v1
Date: Mon, 23 Sep 2024 16:01:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 14:23:12.717334
Title: Predicting Expert Evaluations in Software Code Reviews
Title（参考訳）: ソフトウェアコードレビューにおける専門家の評価予測
Authors: Yegor Denisov-Blanch, Igor Ciobanu, Simon Obstbaum, Michal Kosinski,
Abstract要約: 本稿では,その複雑さや主観性から回避されるコードレビューの側面を自動化するアルゴリズムモデルを提案する。手作業によるレビューを置き換える代わりに、私たちのモデルは、レビュアーがより影響力のあるタスクに集中するのに役立つ洞察を追加します。
参考スコア（独自算出の注目度）: 8.012861163935904
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Manual code reviews are an essential but time-consuming part of software development, often leading reviewers to prioritize technical issues while skipping valuable assessments. This paper presents an algorithmic model that automates aspects of code review typically avoided due to their complexity or subjectivity, such as assessing coding time, implementation time, and code complexity. Instead of replacing manual reviews, our model adds insights that help reviewers focus on more impactful tasks. Calibrated using expert evaluations, the model predicts key metrics from code commits with strong correlations to human judgments (r = 0.82 for coding time, r = 0.86 for implementation time). By automating these assessments, we reduce the burden on human reviewers and ensure consistent analysis of time-consuming areas, offering a scalable solution alongside manual reviews. This research shows how automated tools can enhance code reviews by addressing overlooked tasks, supporting data-driven decisions and improving the review process.
Abstract（参考訳）: 手動のコードレビューはソフトウェア開発の不可欠な部分ですが、時間がかかります。本稿では,コーディング時間や実装時間,コードの複雑さなど,その複雑さや主観性から回避されるコードレビューの側面を自動化するアルゴリズムモデルを提案する。手作業によるレビューを置き換える代わりに、私たちのモデルは、レビュアーがより影響力のあるタスクに集中するのに役立つ洞察を追加します。専門家の評価を用いて、モデルは人間の判断と強い相関関係を持つコードコミットから重要なメトリクスを予測する(コーディング時間ではr = 0.82、実装時間ではr = 0.86)。これらの評価を自動化することで、人間レビュアーの負担を軽減し、手作業によるレビューと並行してスケーラブルなソリューションを提供するとともに、時間的消費領域の一貫した分析を確実にする。この研究は、見落としているタスクに対処し、データ駆動決定をサポートし、レビュープロセスを改善することで、自動ツールがコードレビューを改善する方法を示している。

関連論文リスト

Automated Code Review Using Large Language Models at Ericsson: An Experience Report [3.82053496282075]
Ericssonのコードレビュープロセスを自動化するために、Large Language Modelsを使った経験について説明する。次に、コードレビューツールと奨励的な結果を評価するための、経験豊富な開発者との予備実験について説明する。
論文参考訳（メタデータ） (2025-07-25T09:50:48Z)
Code Review as Decision-Making -- Building a Cognitive Model from the Questions Asked During Code Review [2.8299846354183953]
コードレビューの認知モデルを構築し、翻訳された資料の主題的、統計的、時間的、シーケンシャルな分析を通じてボトムアップする。まず、コンテキストと合理性を確立するための配向フェーズ、次に、レビューの残りの部分を理解し、評価し、計画するための分析フェーズです。
論文参考訳（メタデータ） (2025-07-13T14:04:16Z)
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。命令ベースのデータセットの微調整により、パフォーマンスが10～20ポイント向上する。
論文参考訳（メタデータ） (2025-04-15T10:07:33Z)
Identifying Aspects in Peer Reviews [61.374437855024844]
我々は、ピアレビューのコーパスからきめ細かいアスペクトを抽出するデータ駆動型スキーマを開発した。我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文参考訳（メタデータ） (2025-04-09T14:14:42Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Automating Code Review: A Systematic Literature Review [15.416725497289697]
コードレビューは、コード品質の向上を目標として、チームメイトによって書かれたコードを評価することで構成される。実証的な研究は、そのようなプラクティスによってもたらされた利益を文書化しており、開発者の時間という面ではコストがかかる。コードレビュータスクを自動化する技術とツールが提案されている。
論文参考訳（メタデータ） (2025-03-12T16:19:10Z)
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文参考訳（メタデータ） (2025-02-23T15:36:43Z)
BitsAI-CR: Automated Code Review via LLM in Practice [16.569842114384233]
BitsAI-CRは、2段階のアプローチを通じてコードレビューを強化する革新的なフレームワークである。システムはレビュールールの包括的な分類に基づいて構築され、データフライホイール機構を実装している。実証評価はBitsAI-CRの有効性を示し、レビューコメント生成において75.0%の精度を達成した。
論文参考訳（メタデータ） (2025-01-25T08:39:50Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword? [14.970843824847956]
私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。本研究は,LLMが自動認識する問題の大部分をレビュアが有効とみなし,自動化されたレビューを出発点として利用できることが,彼らの行動に強く影響していることを示す。しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。
論文参考訳（メタデータ） (2024-11-18T09:24:01Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
Leveraging Reviewer Experience in Code Review Comment Generation [11.224317228559038]
私たちは、自然言語のコードレビューを提供する際に、人間のレビュアーを模倣するためにディープラーニングモデルを訓練します。生成したレビューの品質は、モデルトレーニングで使用されるオープンソースのコードレビューデータの品質のため、まだ最適化されていない。本稿では,レビュー品質の指標として,過去のレビュアのオーサリングとレビューを活かした経験学習手法を提案する。
論文参考訳（メタデータ） (2024-09-17T07:52:50Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
Improving Automated Code Reviews: Learning from Experience [12.573740138977065]
本研究では,自動コードレビューモデルから高品質なレビューを生成できるかどうかを検討する。経験を意識したオーバーサンプリングは、レビューの正確性、情報レベル、有意義性を高めることができる。
論文参考訳（メタデータ） (2024-02-06T07:48:22Z)
Code Review Automation: Strengths and Weaknesses of the State of the Art [14.313783664862923]
3つのコードレビュー自動化技術は、この論文で説明した2つのタスクで成功するか失敗する傾向があります。この研究は質的な焦点が強く、正確な予測と間違った予測の分析に105時間のマニュアルインスペクションが費やされている。
論文参考訳（メタデータ） (2024-01-10T13:00:18Z)
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文参考訳（メタデータ） (2023-05-19T15:19:44Z)
Predicting Code Review Completion Time in Modern Code Review [12.696276129130332]
Modern Code Review (MCR)は、オープンソースと商用の両方で共通のプラクティスとして採用されている。コードレビューは、様々な社会的技術的要因のために完了するのにかなりの遅延を経験することができる。コードレビューの完了に必要な時間を見積もるためのツールサポートが不足している。
論文参考訳（メタデータ） (2021-09-30T14:00:56Z)
Deep Just-In-Time Inconsistency Detection Between Comments and Source Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文参考訳（メタデータ） (2020-10-04T16:49:28Z)
Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。 58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文参考訳（メタデータ） (2020-02-10T05:23:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。