論文の概要: Evaluating the Impact of Data Cleaning on the Quality of Generated Pull Request Descriptions
- arxiv url: http://arxiv.org/abs/2505.01120v1
- Date: Fri, 02 May 2025 08:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.977174
- Title: Evaluating the Impact of Data Cleaning on the Quality of Generated Pull Request Descriptions
- Title(参考訳): データクリーニングがプル要求書の質に及ぼす影響評価
- Authors: Kutay Tire, Berk Çakar, Eray Tüzün,
- Abstract要約: プルリクエスト(PR)はコラボレーションコーディングの中心である。
多くのPRは不完全、非形式的、あるいはアウト・オブ・コンテクストのコンテンツを持っている。
本研究では,「ノイズ」PRの有病率について検討し,それらが記述生成モデルに与える影響を評価する。
- 参考スコア(独自算出の注目度): 2.2134505920972547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pull Requests (PRs) are central to collaborative coding, summarizing code changes for reviewers. However, many PR descriptions are incomplete, uninformative, or have out-of-context content, compromising developer workflows and hindering AI-based generation models trained on commit messages and original descriptions as "ground truth." This study examines the prevalence of "noisy" PRs and evaluates their impact on state-of-the-art description generation models. To do so, we propose four cleaning heuristics to filter noise from an initial dataset of 169K+ PRs drawn from 513 GitHub repositories. We train four models-BART, T5, PRSummarizer, and iTAPE-on both raw and cleaned datasets. Performance is measured via ROUGE-1, ROUGE-2, and ROUGE-L metrics, alongside a manual evaluation to assess description quality improvements from a human perspective. Cleaning the dataset yields significant gains: average F1 improvements of 8.6% (ROUGE-1), 8.7% (ROUGE-2), and 8.5% (ROUGE-L). Manual assessment confirms higher readability and relevance in descriptions generated by the best-performing model, BART when trained on cleaned data. Dataset refinement markedly enhances PR description generation, offering a foundation for more accurate AI-driven tools and guidelines to assist developers in crafting high-quality PR descriptions.
- Abstract(参考訳): プルリクエスト(PR)は、コラボレーティブなコーディングの中心であり、レビュアーのコード変更を要約する。
しかし、多くのPR記述は不完全、非形式的、あるいはアウト・オブ・コンテクストのコンテンツを持ち、開発者のワークフローを妥協し、コミットメッセージとオリジナルの記述を"地下真実"としてトレーニングしたAIベースの生成モデルを妨げている。
本研究では,「ノイズ」PRの有病率について検討し,それらが現状記述生成モデルに与える影響を検証した。
そのため、GitHubリポジトリ513から抽出された169K以上のPRの最初のデータセットからノイズをフィルタリングする4つのクリーニングヒューリスティックを提案する。
BART、T5、PRSummarizer、iTAPEの4つのモデルを、生とクリーニングの両方のデータセットでトレーニングします。
ROUGE-1, ROUGE-2, ROUGE-L測定値を用いて評価を行い, 人的視点から記述品質の改善を評価する。
データセットのクリーニングは、平均F1の改善は8.6%(ROUGE-1)、8.7%(ROUGE-2)、8.5%(ROUGE-L)である。
手作業による評価では、クリーンなデータに基づいてトレーニングされた場合、最高のパフォーマンスモデルであるBARTによって生成された記述の可読性と関連性が高いことが確認される。
データセットの改良はPR記述生成を大幅に強化し、より正確なAI駆動ツールとガイドラインの基礎を提供し、開発者が高品質なPR記述を作成するのを支援する。
関連論文リスト
- R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Too Noisy To Learn: Enhancing Data Quality for Code Review Comment Generation [2.990411348977783]
オープンソースのデータセットは、自動コードレビュータスクのためのニューラルネットワークのトレーニングに使用される。
これらのデータセットには、クリーニングメソッドにもかかわらず持続する大量のノイズの多いコメントが含まれている。
大規模言語モデル(LLM)を用いて,これらのデータセットをさらにクリーン化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T22:48:58Z) - Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - Improving Embedding Accuracy for Document Retrieval Using Entity Relationship Maps and Model-Aware Contrastive Sampling [0.0]
APEX-Embedding-7Bは、7ビリオンパラメータデコーダのみのテキスト特徴抽出モデルである。
このアプローチでは2つのトレーニング手法を採用して,現実の焦点を即時的に改善する。
本モデルでは,より長いコンテキスト文書検索タスクに対して,テキスト特徴抽出における最先端の標準を新たに確立する。
論文 参考訳(メタデータ) (2024-10-08T17:36:48Z) - Automatic Pull Request Description Generation Using LLMs: A T5 Model Approach [0.0]
本稿では,コミットメッセージとソースコードコメントに基づくPR記述の自動生成手法を提案する。
我々は,33,466個のPRを含むデータセットを用いて,事前学習したT5モデルを微調整した。
以上の結果から,T5モデルはLexRankより有意に優れていた。
論文 参考訳(メタデータ) (2024-08-01T21:22:16Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。