論文の概要: CupCleaner: A Data Cleaning Approach for Comment Updating
- arxiv url: http://arxiv.org/abs/2308.06898v1
- Date: Mon, 14 Aug 2023 02:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 14:19:59.831947
- Title: CupCleaner: A Data Cleaning Approach for Comment Updating
- Title(参考訳): CupCleaner: コメント更新のためのデータクリーニングアプローチ
- Authors: Qingyuan Liang, Zeyu Sun, Qihao Zhu, Junhao Hu, Yifan Zhao, Lu Zhang
- Abstract要約: コメント更新は、ソースコードの変更に基づいて対応するコメントを自動的に更新することを目的とした、新しいソフトウェアエンジニアリングタスクである。
コメント更新データセットは通常、GitHubなどのオープンソースソフトウェアリポジトリのコミットバージョンからクロールされる。
我々は,この目的を達成するために,CupCleaner (Comment UPdating's CLEANER) という意味的かつ重なり合うアプローチを提案する。
- 参考スコア(独自算出の注目度): 20.834718062539896
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, deep learning-based techniques have shown promising performance on
various tasks related to software engineering. For these learning-based
approaches to perform well, obtaining high-quality data is one fundamental and
crucial issue. The comment updating task is an emerging software engineering
task aiming at automatically updating the corresponding comments based on
changes in source code. However, datasets for the comment updating tasks are
usually crawled from committed versions in open source software repositories
such as GitHub, where there is lack of quality control of comments. In this
paper, we focus on cleaning existing comment updating datasets with considering
some properties of the comment updating process in software development. We
propose a semantic and overlapping-aware approach named CupCleaner (Comment
UPdating's CLEANER) to achieve this purpose. Specifically, we calculate a score
based on semantics and overlapping information of the code and comments. Based
on the distribution of the scores, we filter out the data with low scores in
the tail of the distribution to get rid of possible unclean data. We first
conducted a human evaluation on the noise data and high-quality data identified
by CupCleaner. The results show that the human ratings of the noise data
identified by CupCleaner are significantly lower. Then, we applied our data
cleaning approach to the training and validation sets of three existing comment
updating datasets while keeping the test set unchanged. Our experimental
results show that even after filtering out over 30\% of the data using
CupCleaner, there is still an improvement in all performance metrics. The
experimental results on the cleaned test set also suggest that CupCleaner may
provide help for constructing datasets for updating-related tasks.
- Abstract(参考訳): 近年,ディープラーニング技術は,ソフトウェア工学に関連する様々なタスクにおいて,有望な性能を示している。
これらの学習ベースアプローチがうまく機能するためには、高品質なデータを取得することが基本的で重要な問題である。
コメント更新タスクは、ソースコードの変更に基づいて対応するコメントを自動的に更新することを目的とした、新しいソフトウェアエンジニアリングタスクである。
しかしながら、コメント更新タスクのデータセットは通常、コメントの品質管理の欠如があるGitHubなどのオープンソースソフトウェアリポジトリのコミットバージョンからクロールされる。
本稿では,ソフトウェア開発におけるコメント更新プロセスの特性を考慮し,既存のコメント更新データセットのクリーニングに着目する。
この目的を達成するために,CupCleaner (Comment UPdating's CLEANER) という意味的かつ重なり合うアプローチを提案する。
具体的には、コードとコメントのセマンティクスと重なり合う情報に基づいてスコアを計算する。
スコアの分布に基づいて、分布の尾部にある低いスコアでデータをフィルタリングして、可能な不潔なデータを排除する。
我々はまず,CupCleanerが同定したノイズデータと高品質データについて人間による評価を行った。
その結果、CupCleanerが同定したノイズデータの人間の評価は著しく低かった。
そして、既存の3つのコメント更新データセットのトレーニングと検証セットに対して、テストセットを変更せずにデータクリーニングアプローチを適用した。
実験の結果,cupcleanerを用いて30%以上のデータをフィルタリングした後でも,すべてのパフォーマンス指標が改善されていることがわかった。
クリーニングされたテストセットの実験結果は、CupCleanerが関連するタスクを更新するためのデータセットを構築するのに役立つことを示唆している。
関連論文リスト
- Language Modeling with Editable External Knowledge [90.7714362827356]
本稿では,新たな文書取得時のモデル動作を改善するERASEを提案する。
ドキュメントを追加するたびに、知識ベースで他のエントリを段階的に削除または書き直します。
7-13%(Mixtral-8x7B)と6-10%(Llama-3-8B)の精度を向上する。
論文 参考訳(メタデータ) (2024-06-17T17:59:35Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models [25.893228797735908]
本研究は,Jigsaw Civil Comments, Anthropic Harmless & Red Team, PKU BeaverTails & SafeRLHFなど,現実世界のデータセットの信頼性に重点を置いている。
ヒトによるこれらのデータセットのクリーニングのコストと困難さを考慮して、データセットの信頼性を評価するための体系的な枠組みを導入する。
上記のベンチマークから構築した11のデータセットで、平均6.16%のラベルエラーを発見し、修正する。
論文 参考訳(メタデータ) (2023-11-19T02:34:12Z) - Data leakage in cross-modal retrieval training: A case study [16.18916188804986]
提案したSoundDescベンチマークデータセットは,BBC Sound EffectsのWebページから自動的にソースされる。
SoundDescには、トレーニングデータを評価データに漏洩させる複数の重複が含まれていることが判明した。
オンラインで利用可能なデータセットに対して、新たなトレーニング、検証、テストの分割を提案します。
論文 参考訳(メタデータ) (2023-02-23T09:51:03Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - On the Importance of Building High-quality Training Datasets for Neural
Code Search [15.557818317497397]
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。
2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-14T12:02:41Z) - Autoencoder-based cleaning in probabilistic databases [0.0]
ほぼ自動でデータ品質を向上できるデータクリーニングオートエンコーダを提案する。
データの構造と依存関係を学び、疑わしい値を識別し、修正する。
論文 参考訳(メタデータ) (2021-06-17T18:46:56Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。