論文の概要: PENTACET data -- 23 Million Contextual Code Comments and 500,000 SATD
comments
- arxiv url: http://arxiv.org/abs/2303.14029v1
- Date: Fri, 24 Mar 2023 14:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 14:22:00.759498
- Title: PENTACET data -- 23 Million Contextual Code Comments and 500,000 SATD
comments
- Title(参考訳): PENTACET データ -- 2300万のコンテキストコードコメントと50万のSATDコメント
- Authors: Murali Sridharan, Leevi Rantala, Mika M\"antyl\"a
- Abstract要約: SATD(Self-Admitted Technical Debt)研究の多くは、SATD検出に「TODO」や「FIXME」のような明示的なSATD特徴を用いる。
この作業は、PENTACET(あるいは5Cデータセット)データを通じて、このギャップに対処する。
結果は2300万のコードコメント、各コメントのソースコードコンテキストの前と後、そしてSATDとラベル付けされた50万以上のコメントからなるデータセットである。
- 参考スコア(独自算出の注目度): 3.6095388702618414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most Self-Admitted Technical Debt (SATD) research utilizes explicit SATD
features such as 'TODO' and 'FIXME' for SATD detection. A closer look reveals
several SATD research uses simple SATD ('Easy to Find') code comments without
the contextual data (preceding and succeeding source code context). This work
addresses this gap through PENTACET (or 5C dataset) data. PENTACET is a large
Curated Contextual Code Comments per Contributor and the most extensive SATD
data. We mine 9,096 Open Source Software Java projects with a total of 435
million LOC. The outcome is a dataset with 23 million code comments, preceding
and succeeding source code context for each comment, and more than 500,000
comments labeled as SATD, including both 'Easy to Find' and 'Hard to Find'
SATD. We believe PENTACET data will further SATD research using Artificial
Intelligence techniques.
- Abstract(参考訳): 多くのSATD研究は、SATD検出に「TODO」や「FIXME」のような明示的なSATD特徴を利用している。
より詳しく見てみると、SATDの研究は、文脈データ(ソースコードコンテキストの先行と継承)なしで、単純なSATD('Easy to Find')コードコメントを使用する。
この作業はpentacet(または5cデータセット)データを通じてこのギャップに対処する。
PENTACETは、コントリビュータ毎のCurated Contextual Code Commentsと、最も広範なSATDデータである。
9,096のオープンソースソフトウェアJavaプロジェクトと合計4億3500万LOCをマイニングしています。
結果は、各コメントのソースコードコンテキストに先行して続く2300万のコードコメントと、"Easy to Find"と"Hard to Find"のSATDを含む50,000以上のコメントからなるデータセットである。
我々は、PENTACETデータが人工知能技術を用いてSATDの研究をさらに進めると考えている。
関連論文リスト
- Deep Learning and Data Augmentation for Detecting Self-Admitted Technical Debt [6.004718679054704]
Self-Admitted Technical Debt (SATD)は、開発者がテキストアーティファクトを使用して、既存の実装が最適でない理由を説明する状況を指す。
SATD と BERT のバイナリ識別に BiLSTM アーキテクチャを用い,様々な SATD の分類を行った。
異なるアーティファクトから派生した様々なデータセットからSATDを識別・分類するための2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-21T09:22:16Z) - SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted
Technical Debt [6.699060157800401]
自己承認技術的負債(Self-admitted Technical debt、SATD)とは、開発者が技術的ショートカットの存在を明確に認識し、文書化する技術的負債の一種である。
textitSATDAUGデータセットは、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張バージョンです。
論文 参考訳(メタデータ) (2024-03-12T14:33:53Z) - Explaining SAT Solving Using Causal Reasoning [30.469229388827443]
本稿では、因果推論を用いて、現代のSATソルバの機能に関する洞察を得るCausalSATを紹介する。
われわれはCausalSATを用いて,これまで「親指のルール」や経験的発見と考えられていた仮説を定量的に検証した。
論文 参考訳(メタデータ) (2023-06-09T22:53:16Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - DS-1000: A Natural and Reliable Benchmark for Data Science Code
Generation [70.96868419971756]
DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。
まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。
第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
論文 参考訳(メタデータ) (2022-11-18T17:20:27Z) - Estimating the hardness of SAT encodings for Logical Equivalence
Checking of Boolean circuits [58.83758257568434]
LEC インスタンスの SAT 符号化の硬さは SAT パーティショニングでは textitw.r. と推定できることを示す。
そこで本研究では, SAT符号化の難易度を精度良く推定できるパーティショニング法を提案する。
論文 参考訳(メタデータ) (2022-10-04T09:19:13Z) - Automatic Identification of Self-Admitted Technical Debt from Four
Different Sources [3.446864074238136]
技術的負債とは、ソフトウェアシステムの長期的な保守性と進化性を犠牲にして、短期的な目標を達成するためにショートカットを取ることを指す。
これまでの作業は、ソースコードコメントとイシュートラッカからSATDを識別することに集中していた。
ソースコードコメント,コミットメッセージ,プルリクエスト,イシュートラッキングシステムという4つのソースを統合したSATDの自動識別手法を提案する。
論文 参考訳(メタデータ) (2022-02-04T20:59:25Z) - Identifying Self-Admitted Technical Debt in Issue Tracking Systems using
Machine Learning [3.446864074238136]
技術的負債は短期的利益のために実装された準最適ソリューションのメタファーである。
Self-Admitted Technical Debtの特定に関する作業の多くは、ソースコードのコメントに重点を置いている。
本稿では,機械学習を用いた問題追跡システムにおけるSATDの自動識別手法の提案と最適化を行う。
論文 参考訳(メタデータ) (2022-02-04T15:15:13Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。