論文の概要: Deep Learning-Based Identification of Inconsistent Method Names: How Far Are We?
- arxiv url: http://arxiv.org/abs/2501.12617v1
- Date: Wed, 22 Jan 2025 03:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:49.059391
- Title: Deep Learning-Based Identification of Inconsistent Method Names: How Far Are We?
- Title(参考訳): 深層学習に基づく一貫性のないメソッド名同定:どこまで遠いのか?
- Authors: Taiming Wang, Yuxia Zhang, Lin Jiang, Yi Tang, Guangjie Li, Hui Liu,
- Abstract要約: 本稿では,非一貫性なメソッド名を識別するための最先端のディープラーニング手法を評価する実証的研究について述べる。
我々はコミット履歴からの自動識別と手動の開発者検査を組み合わせることで、新しいベンチマークを作成する。
その結果、バランスの取れたデータセットから新しいベンチマークに移行すると、パフォーマンスが大幅に低下することがわかった。
- 参考スコア(独自算出の注目度): 6.199085977656376
- License:
- Abstract: Concise and meaningful method names are crucial for program comprehension and maintenance. However, method names may become inconsistent with their corresponding implementations, causing confusion and errors. Several deep learning (DL)-based approaches have been proposed to identify such inconsistencies, with initial evaluations showing promising results. However, these evaluations typically use a balanced dataset, where the number of inconsistent and consistent names are equal. This setup, along with flawed dataset construction, leads to false positives, making reported performance less reliable in real-world scenarios, where most method names are consistent. In this paper, we present an empirical study that evaluates state-of-the-art DL-based methods for identifying inconsistent method names. We create a new benchmark by combining automatic identification from commit histories and manual developer inspections, reducing false positives. We evaluate five representative DL approaches (one retrieval-based and four generation-based) on this benchmark. Our results show that performance drops substantially when moving from the balanced dataset to the new benchmark. We further conduct quantitative and qualitative analyses to understand the strengths and weaknesses of the approaches. Retrieval-based methods perform well on simple methods and those with popular name sub-tokens but fail due to inefficient representation techniques. Generation-based methods struggle with inaccurate similarity calculations and immature name generation. Based on these findings, we propose improvements using contrastive learning and large language models (LLMs). Our study suggests that significant improvements are needed before these DL approaches can be effectively applied to real-world software systems.
- Abstract(参考訳): 簡潔で意味のあるメソッド名は、プログラムの理解と保守に不可欠である。
しかし、メソッド名は対応する実装と矛盾し、混乱とエラーを引き起こす可能性がある。
深層学習(DL)に基づくいくつかのアプローチが,このような不整合を識別するために提案されている。
しかしながら、これらの評価は通常、一貫性のない名前と一貫性のない名前の数が等しいバランスの取れたデータセットを使用する。
このセットアップは、データセット構成の欠陥とともに、偽陽性につながるため、ほとんどのメソッド名が一貫性のある実世界のシナリオでは、報告されたパフォーマンスの信頼性が低下する。
本稿では,非一貫性なメソッド名を識別するための,最先端のDLベースの手法を評価する実証的研究について述べる。
コミット履歴からの自動識別と手動の開発者検査を組み合わせ、偽陽性を減らすことで、新しいベンチマークを作成する。
本ベンチマークでは,5つのDLアプローチ(検索ベース1つ,世代ベース4つ)を評価した。
その結果、バランスの取れたデータセットから新しいベンチマークに移行すると、パフォーマンスが大幅に低下することがわかった。
さらに、アプローチの長所と短所を理解するために、定量的かつ質的な分析を行う。
Retrieval-based methodは、単純なメソッドや一般的な名前のサブトークンでうまく機能するが、非効率な表現技術のために失敗する。
生成に基づく手法は、不正確な類似性計算と未熟な名前生成に苦労する。
これらの結果に基づき、コントラスト学習と大規模言語モデル(LLM)による改善を提案する。
本研究は、これらのDLアプローチが現実世界のソフトウェアシステムに効果的に適用される前に、大幅な改善が必要であることを示唆している。
関連論文リスト
- Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - How are We Detecting Inconsistent Method Names? An Empirical Study from
Code Review Perspective [13.585460827586926]
メソッドの適切な命名は、プログラムコードを理解しやすくし、ソフトウェア保守性を高める。
メソッド名の不整合をチェックする自動ツールの開発に多くの研究努力が費やされている。
本研究では,最先端技術が一貫性と一貫性のないメソッド名の検出や推奨にどのように貢献するかを実証研究する。
論文 参考訳(メタデータ) (2023-08-24T10:39:18Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Meta Objective Guided Disambiguation for Partial Label Learning [44.05801303440139]
メタ客観的ガイド型曖昧化(MoGD)を用いたラベル学習のための新しい枠組みを提案する。
MoGDは、小さな検証セットでメタ目標を解くことで、候補ラベルから基底トラスラベルを復元することを目的としている。
提案手法は,通常のSGDを用いた様々なディープネットワークを用いて容易に実装できる。
論文 参考訳(メタデータ) (2022-08-26T06:48:01Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Take More Positives: An Empirical Study of Contrastive Learing in
Unsupervised Person Re-Identification [43.11532800327356]
Unsupervised Person re-IDは、監視されたメソッドのパフォーマンスギャップを埋めることを目指している。
成功の理由として,ラベル生成機構だけでなく,探索されていない設計もあげられる。
教師なし再IDのためのメモリバックのない対比学習法を提案する。
論文 参考訳(メタデータ) (2021-01-12T08:06:11Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。