論文の概要: Just-In-Time Software Defect Prediction via Bi-modal Change Representation Learning
- arxiv url: http://arxiv.org/abs/2410.12107v1
- Date: Tue, 15 Oct 2024 23:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:39.953775
- Title: Just-In-Time Software Defect Prediction via Bi-modal Change Representation Learning
- Title(参考訳): バイモーダル変化表現学習によるジャストインタイムソフトウェア欠陥予測
- Authors: Yuze Jiang, Beijun Shen, Xiaodong Gu,
- Abstract要約: 本稿では, BiCC-BERT と呼ばれる新しいバイモーダル変更事前学習モデルを提案する。
BiCC-BERTは、バイモーダルなセマンティック表現を学ぶために、コード変更コーパスで事前訓練される。
27,391コードの変更を使用してJIT-BiCCをトレーニングし、そのパフォーマンスを8つの最先端JIT-DPアプローチと比較する。
- 参考スコア(独自算出の注目度): 5.04327119462716
- License:
- Abstract: For predicting software defects at an early stage, researchers have proposed just-in-time defect prediction (JIT-DP) to identify potential defects in code commits. The prevailing approaches train models to represent code changes in history commits and utilize the learned representations to predict the presence of defects in the latest commit. However, existing models merely learn editions in source code, without considering the natural language intentions behind the changes. This limitation hinders their ability to capture deeper semantics. To address this, we introduce a novel bi-modal change pre-training model called BiCC-BERT. BiCC-BERT is pre-trained on a code change corpus to learn bi-modal semantic representations. To incorporate commit messages from the corpus, we design a novel pre-training objective called Replaced Message Identification (RMI), which learns the semantic association between commit messages and code changes. Subsequently, we integrate BiCC-BERT into JIT-DP and propose a new defect prediction approach -- JIT-BiCC. By leveraging the bi-modal representations from BiCC-BERT, JIT-BiCC captures more profound change semantics. We train JIT-BiCC using 27,391 code changes and compare its performance with 8 state-of-the-art JIT-DP approaches. The results demonstrate that JIT-BiCC outperforms all baselines, achieving a 10.8% improvement in F1-score. This highlights its effectiveness in learning the bi-modal semantics for JIT-DP.
- Abstract(参考訳): ソフトウェアの欠陥を早期に予測するために、研究者たちは、コードコミットの潜在的な欠陥を特定するために、ジャスト・イン・タイムの欠陥予測(JIT-DP)を提案した。
一般的なアプローチでは、履歴コミットのコード変更を表現するためにモデルをトレーニングし、学習した表現を使用して、最新のコミットにおける欠陥の存在を予測する。
しかし、既存のモデルは、変更の背後にある自然言語の意図を考慮せずに、単にソースコードのエディションを学ぶだけである。
この制限は、より深いセマンティクスをキャプチャする能力を妨げます。
そこで本研究では,BiCC-BERTと呼ばれる新しいバイモーダル変更事前学習モデルを提案する。
BiCC-BERTは、バイモーダルなセマンティック表現を学ぶために、コード変更コーパスで事前訓練される。
コーパスからのコミットメッセージを組み込むために、コミットメッセージとコード変更のセマンティックな関連を学習する、Replaced Message Identification (RMI)と呼ばれる新しい事前学習目標を設計する。
その後、BiCC-BERTをJIT-DPに統合し、新しい欠陥予測アプローチであるJIT-BiCCを提案する。
BiCC-BERTのバイモーダル表現を活用することで、JIT-BiCCはより深い変更セマンティクスをキャプチャする。
27,391コードの変更を使用してJIT-BiCCをトレーニングし、そのパフォーマンスを8つの最先端JIT-DPアプローチと比較する。
その結果、JIT-BiCCは全てのベースラインを上回り、F1スコアを10.8%改善した。
これはJIT-DPのバイモーダルセマンティクスを学ぶ上での有効性を強調している。
関連論文リスト
- Supporting Cross-language Cross-project Bug Localization Using Pre-trained Language Models [2.5121668584771837]
既存のテクニックは、アプリケーション固有のデータに依存しているため、一般化性とデプロイメントに苦労することが多い。
本稿では,プロジェクトと言語の境界を超越したバグローカライゼーションのための,PLMに基づく新しい言語モデルを提案する。
論文 参考訳(メタデータ) (2024-07-03T01:09:36Z) - CCBERT: Self-Supervised Code Change Representation Learning [14.097775709587475]
CCBERTは新しいTransformerベースの事前トレーニングモデルで、巨大なラベルなしコード変更を含む大規模なデータセットに基づいて、コード変更の汎用表現を学ぶ。
実験の結果,CCBERT は CC2Vec や,下流タスクの最先端アプローチを7.7%-14.0% 上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-27T08:17:03Z) - Pre-training Code Representation with Semantic Flow Graph for Effective
Bug Localization [4.159296619915587]
セマンティックフローグラフ (Semantic Flow Graph, SFG) という, 有向多ラベル符号グラフの表現法を提案する。
そこで本手法は,バグローカライゼーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-24T13:25:17Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Autoregressive Belief Propagation for Decoding Block Codes [113.38181979662288]
誤り訂正符号の復号化にグラフニューラルネットワークを用いた最近の手法を再検討する。
本手法は,他手法がゼロワードでのみ学習できる対称性条件に反する。
1つの単語でトレーニングする余地がなく、関連するサンプル空間のごく一部でトレーニングできないにもかかわらず、効果的なトレーニングを実演する。
論文 参考訳(メタデータ) (2021-01-23T17:14:55Z) - CoreGen: Contextualized Code Representation Learning for Commit Message
Generation [39.383390029545865]
コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。
ベンチマークデータセットの実験では、BLEU-4スコアの少なくとも28.18%の改善により、ベースラインモデルよりもモデルの有効性が向上した。
論文 参考訳(メタデータ) (2020-07-14T09:43:26Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。