論文の概要: Enhancing Software Maintenance: A Learning to Rank Approach for Co-changed Method Identification
- arxiv url: http://arxiv.org/abs/2411.19099v1
- Date: Thu, 28 Nov 2024 12:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:59.701431
- Title: Enhancing Software Maintenance: A Learning to Rank Approach for Co-changed Method Identification
- Title(参考訳): ソフトウェアメンテナンスの強化: 共同変更型メソッド識別のためのランク付けアプローチの学習
- Authors: Yiping Jia, Safwat Hassan, Ying Zou,
- Abstract要約: 本稿では、ソースコードの特徴と変更履歴を組み合わせて、プル-リクエストレベルで共変更したメソッドを予測・ランク付けする学習 to-rankアプローチを提案する。
150のオープンソースプロジェクトの実験では、合計4150万行のコードと634,216のプルリクエストがあり、Random ForestモデルはNDCG@5で2.5から12.8%、他のモデルを上回っている。
- 参考スコア(独自算出の注目度): 0.7285835869818668
- License:
- Abstract: With the increasing complexity of large-scale software systems, identifying all necessary modifications for a specific change is challenging. Co-changed methods, which are methods frequently modified together, are crucial for understanding software dependencies. However, existing methods often produce large results with high false positives. Focusing on pull requests instead of individual commits provides a more comprehensive view of related changes, capturing essential co-change relationships. To address these challenges, we propose a learning-to-rank approach that combines source code features and change history to predict and rank co-changed methods at the pull-request level. Experiments on 150 open-source Java projects, totaling 41.5 million lines of code and 634,216 pull requests, show that the Random Forest model outperforms other models by 2.5 to 12.8 percent in NDCG@5. It also surpasses baselines such as file proximity, code clones, FCP2Vec, and StarCoder 2 by 4.7 to 537.5 percent. Models trained on longer historical data (90 to 180 days) perform consistently, while accuracy declines after 60 days, highlighting the need for bi-monthly retraining. This approach provides an effective tool for managing co-changed methods, enabling development teams to handle dependencies and maintain software quality.
- Abstract(参考訳): 大規模ソフトウェアシステムの複雑さが増すにつれ、特定の変更に必要なすべての変更を特定することは難しい。
ソフトウェア依存関係を理解するには、頻繁に修正されるメソッドである共変更メソッドが不可欠です。
しかし、既存の手法は、しばしば高い偽陽性で大きな結果をもたらす。
個々のコミットではなくプルリクエストにフォーカスすることで、関連する変更のより包括的なビューが得られます。
これらの課題に対処するために、ソースコードの特徴と変更履歴を組み合わせた学習からランクへのアプローチを提案し、プル-リクエストレベルで共変更メソッドの予測とランク付けを行う。
150のオープンソースプロジェクトの実験では、合計4150万行のコードと634,216のプルリクエストがあり、Random ForestモデルはNDCG@5で2.5から12.8%、他のモデルを上回っている。
また、ファイル近接、コードクローン、FCP2Vec、StarCoder 2といったベースラインを4.7~537.5%上回る。
長い歴史データ(90日から180日)で訓練されたモデルは一貫して動作し、60日後に精度が低下し、隔月再トレーニングの必要性が強調される。
このアプローチは、開発チームが依存関係を処理し、ソフトウェア品質を維持することができるように、共変更したメソッドを管理する効果的なツールを提供する。
関連論文リスト
- ChangeGuard: Validating Code Changes via Pairwise Learning-Guided Execution [16.130469984234956]
ChangeGuardは、学習誘導型実行を使用して、修正された関数の実行動作を比較するアプローチである。
提案手法は,77.1%の精度で,69.5%のリコールで意味的変化を識別する。
論文 参考訳(メタデータ) (2024-10-21T15:13:32Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - Quantifying Process Quality: The Role of Effective Organizational
Learning in Software Evolution [0.0]
現実世界のソフトウェアアプリケーションは、常に進化し続けなければならない。
ソフトウェア品質管理の従来の手法には、ソフトウェアの品質モデルと継続的コード検査ツールが含まれる。
しかし、開発プロセスの品質と結果のソフトウェア製品との間には、強い相関関係と因果関係がある。
論文 参考訳(メタデータ) (2023-05-29T12:57:14Z) - CCT5: A Code-Change-Oriented Pre-Trained Model [14.225942520238936]
我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。
まず、1.5M以上のコード変更とコミットメッセージのペアデータを含む大規模なデータセットを収集します。
トレーニング済みのモデルであるCCT5を、コードの変更とコードレビュープロセスに特有の2つのタスクによって引き起こされる3つの広範囲に分散したタスクで微調整する。
論文 参考訳(メタデータ) (2023-05-18T07:55:37Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - iTAML: An Incremental Task-Agnostic Meta-learning Approach [123.10294801296926]
人間は経験が成長するにつれて、新しい知識を継続的に学ぶことができる。
ディープニューラルネットワークにおける以前の学習は、新しいタスクでトレーニングされたときにすぐに消えてしまう可能性がある。
遭遇した全てのタスク間の平衡を維持するために,新しいメタラーニング手法を導入する。
論文 参考訳(メタデータ) (2020-03-25T21:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。