論文の概要: Pre-training Code Representation with Semantic Flow Graph for Effective
Bug Localization
- arxiv url: http://arxiv.org/abs/2308.12773v1
- Date: Thu, 24 Aug 2023 13:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 12:46:52.090998
- Title: Pre-training Code Representation with Semantic Flow Graph for Effective
Bug Localization
- Title(参考訳): 効果的なバグ位置推定のための意味フローグラフによる事前学習コード表現
- Authors: Yali Du, Zhongxing Yu
- Abstract要約: セマンティックフローグラフ (Semantic Flow Graph, SFG) という, 有向多ラベル符号グラフの表現法を提案する。
そこで本手法は,バグローカライゼーションにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 4.159296619915587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enlightened by the big success of pre-training in natural language
processing, pre-trained models for programming languages have been widely used
to promote code intelligence in recent years. In particular, BERT has been used
for bug localization tasks and impressive results have been obtained. However,
these BERT-based bug localization techniques suffer from two issues. First, the
pre-trained BERT model on source code does not adequately capture the deep
semantics of program code. Second, the overall bug localization models neglect
the necessity of large-scale negative samples in contrastive learning for
representations of changesets and ignore the lexical similarity between bug
reports and changesets during similarity estimation. We address these two
issues by 1) proposing a novel directed, multiple-label code graph
representation named Semantic Flow Graph (SFG), which compactly and adequately
captures code semantics, 2) designing and training SemanticCodeBERT based on
SFG, and 3) designing a novel Hierarchical Momentum Contrastive Bug
Localization technique (HMCBL). Evaluation results show that our method
achieves state-of-the-art performance in bug localization.
- Abstract(参考訳): 自然言語処理における事前学習の大きな成功により、プログラミング言語の事前学習モデルは近年、コードインテリジェンスを促進するために広く利用されている。
特に、BERTはバグローカライゼーションタスクに使われており、印象的な結果が得られている。
しかし、BERTベースのバグローカライゼーション技術には2つの問題がある。
まず、ソースコード上の事前訓練されたBERTモデルは、プログラムコードの深い意味を適切に捉えていない。
第2に,バグローカライズモデル全体としては,変更セットの表現に対する対照学習における大規模負のサンプルの必要性を無視し,類似度推定におけるバグレポートと変更セットの語彙的類似性を無視する。
この2つの問題を
1) コードセマンティクスをコンパクトかつ適切にキャプチャする,セマンティックフローグラフ(Semantic Flow Graph, SFG) という,新規な多ラベルコードグラフ表現を提案する。
2)SFGに基づくSemanticCodeBERTの設計と訓練
3)HMCBL(Hierarchical Momentum Contrastive Bug Localization Technique)を設計する。
評価結果から,本手法はバグローカライゼーションにおける最先端性能を実現する。
関連論文リスト
- Supporting Cross-language Cross-project Bug Localization Using Pre-trained Language Models [2.5121668584771837]
既存のテクニックは、アプリケーション固有のデータに依存しているため、一般化性とデプロイメントに苦労することが多い。
本稿では,プロジェクトと言語の境界を超越したバグローカライゼーションのための,PLMに基づく新しい言語モデルを提案する。
論文 参考訳(メタデータ) (2024-07-03T01:09:36Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Make BERT-based Chinese Spelling Check Model Enhanced by Layerwise
Attention and Gaussian Mixture Model [33.446533426654995]
我々は、BERTベースのCSCモデルを強化するために、異種知識注入フレームワークを設計する。
複数層表現を生成するために,n-gram-based layerwise self-attention の新たな形式を提案する。
実験の結果,提案手法は4つの強力なベースラインモデルに対して安定な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2023-12-27T16:11:07Z) - WELL: Applying Bug Detectors to Bug Localization via Weakly Supervised
Learning [37.09621161662761]
本稿では,バグローカライゼーションモデルをトレーニングするためのWEakly supervised bug LocaLization (WELL) 手法を提案する。
CodeBERTはバギーまたはノーのバイナリラベル付きデータに基づいて微調整されるため、WELLはバグのローカライゼーションを弱教師付きで解決することができる。
論文 参考訳(メタデータ) (2023-05-27T06:34:26Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。
ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。
我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文 参考訳(メタデータ) (2021-04-16T05:27:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。