論文の概要: Aligning Programming Language and Natural Language: Exploring Design Choices in Multi-Modal Transformer-Based Embedding for Bug Localization
- arxiv url: http://arxiv.org/abs/2406.17615v1
- Date: Tue, 25 Jun 2024 15:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:00:49.100042
- Title: Aligning Programming Language and Natural Language: Exploring Design Choices in Multi-Modal Transformer-Based Embedding for Bug Localization
- Title(参考訳): プログラミング言語と自然言語のアラインメント:バグローカライゼーションのためのマルチモーダルトランスフォーマーベース埋め込みにおける設計選択の探索
- Authors: Partha Chakraborty, Venkatraman Arumugam, Meiyappan Nagappan,
- Abstract要約: バグローカライゼーション(バグローカライゼーション)とは、プログラミング言語のソースコードファイルの識別である。
本研究は,14種類の異なる埋め込みモデルを評価し,様々な設計選択の効果について考察した。
以上の結果から,プレトレーニング戦略が組込みの質に大きく影響していることが示唆された。
- 参考スコア(独自算出の注目度): 0.7564784873669823
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Bug localization refers to the identification of source code files which is in a programming language and also responsible for the unexpected behavior of software using the bug report, which is a natural language. As bug localization is labor-intensive, bug localization models are employed to assist software developers. Due to the domain difference between source code files and bug reports, modern bug-localization systems, based on deep learning models, rely heavily on embedding techniques that project bug reports and source code files into a shared vector space. The creation of an embedding involves several design choices, but the impact of these choices on the quality of embedding and the performance of bug localization models remains unexplained in current research. To address this gap, our study evaluated 14 distinct embedding models to gain insights into the effects of various design choices. Subsequently, we developed bug localization models utilizing these embedding models to assess the influence of these choices on the performance of the localization models. Our findings indicate that the pre-training strategies significantly affect the quality of the embedding. Moreover, we discovered that the familiarity of the embedding models with the data has a notable impact on the bug localization model's performance. Notably, when the training and testing data are collected from different projects, the performance of the bug localization models exhibits substantial fluctuations.
- Abstract(参考訳): バグローカライゼーション(バグローカライゼーション、Bug localization)とは、プログラミング言語のソースコードファイルの識別であり、バグレポート(バグレポート)を使ってソフトウェアが予期せぬ振る舞いをする原因でもある。
バグローカライゼーションは労働集約型であるため、バグローカライゼーションモデルがソフトウェア開発者の支援に使用されている。
ソースコードファイルとバグレポートのドメイン差のため、ディープラーニングモデルに基づく現代のバグローカライゼーションシステムは、バグレポートとソースコードファイルを共有ベクトル空間に投影する埋め込み技術に大きく依存している。
埋め込みの作成にはいくつかの設計上の選択があるが、これらの選択が埋め込みの品質とバグローカライゼーションモデルの性能に与える影響は、現在の研究で説明されていない。
このギャップに対処するため,本研究では,14種類の異なる埋め込みモデルを評価し,様々な設計選択の効果について考察した。
その後,これらの埋め込みモデルを用いたバグローカライゼーションモデルを開発し,それらの選択が局所化モデルの性能に与える影響を評価する。
以上の結果から,プレトレーニング戦略が組込みの質に大きく影響していることが示唆された。
さらに,組込みモデルとデータとの親和性は,バグローカライゼーションモデルの性能に顕著な影響を及ぼすことがわかった。
特に、異なるプロジェクトからトレーニングデータとテストデータが収集されると、バグローカライゼーションモデルの性能は大幅に変動する。
関連論文リスト
- Supporting Cross-language Cross-project Bug Localization Using Pre-trained Language Models [2.5121668584771837]
既存のテクニックは、アプリケーション固有のデータに依存しているため、一般化性とデプロイメントに苦労することが多い。
本稿では,プロジェクトと言語の境界を超越したバグローカライゼーションのための,PLMに基づく新しい言語モデルを提案する。
論文 参考訳(メタデータ) (2024-07-03T01:09:36Z) - Defect Category Prediction Based on Multi-Source Domain Adaptation [8.712655828391016]
本稿では,対戦型学習と注意機構を統合したマルチソースドメイン適応フレームワークを提案する。
8つの実世界のオープンソースプロジェクトの実験は、提案されたアプローチが大幅なパフォーマンス改善を実現していることを示している。
論文 参考訳(メタデータ) (2024-05-17T03:30:31Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - Too Few Bug Reports? Exploring Data Augmentation for Improved
Changeset-based Bug Localization [7.884766610628946]
本稿では,バグレポートの異なる構成要素に作用する新しいデータ拡張演算子を提案する。
また、拡張バグレポートのコーパス作成を目的としたデータバランス戦略についても述べる。
論文 参考訳(メタデータ) (2023-05-25T19:06:01Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - A Fault Localization and Debugging Support Framework driven by Bug
Tracking Data [0.11915976684257382]
この論文は、さまざまなソースからのデータを組み合わせることで、フォールトローカリゼーションフレームワークを提供することを目指しています。
これを実現するために,バグ分類スキーマを導入し,ベンチマークを作成し,履歴データに基づく新しいフォールトローカライズ手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:23:13Z) - DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。
複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文 参考訳(メタデータ) (2021-02-11T11:22:20Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。