Fugu-MT 論文翻訳(概要): CupCleaner: A Data Cleaning Approach for Comment Updating

論文の概要: CupCleaner: A Data Cleaning Approach for Comment Updating

arxiv url: http://arxiv.org/abs/2308.06898v1
Date: Mon, 14 Aug 2023 02:27:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 14:19:59.831947
Title: CupCleaner: A Data Cleaning Approach for Comment Updating
Title（参考訳）: CupCleaner: コメント更新のためのデータクリーニングアプローチ
Authors: Qingyuan Liang, Zeyu Sun, Qihao Zhu, Junhao Hu, Yifan Zhao, Lu Zhang
Abstract要約: コメント更新は、ソースコードの変更に基づいて対応するコメントを自動的に更新することを目的とした、新しいソフトウェアエンジニアリングタスクである。コメント更新データセットは通常、GitHubなどのオープンソースソフトウェアリポジトリのコミットバージョンからクロールされる。我々は,この目的を達成するために,CupCleaner (Comment UPdating's CLEANER) という意味的かつ重なり合うアプローチを提案する。
参考スコア（独自算出の注目度）: 20.834718062539896
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recently, deep learning-based techniques have shown promising performance on various tasks related to software engineering. For these learning-based approaches to perform well, obtaining high-quality data is one fundamental and crucial issue. The comment updating task is an emerging software engineering task aiming at automatically updating the corresponding comments based on changes in source code. However, datasets for the comment updating tasks are usually crawled from committed versions in open source software repositories such as GitHub, where there is lack of quality control of comments. In this paper, we focus on cleaning existing comment updating datasets with considering some properties of the comment updating process in software development. We propose a semantic and overlapping-aware approach named CupCleaner (Comment UPdating's CLEANER) to achieve this purpose. Specifically, we calculate a score based on semantics and overlapping information of the code and comments. Based on the distribution of the scores, we filter out the data with low scores in the tail of the distribution to get rid of possible unclean data. We first conducted a human evaluation on the noise data and high-quality data identified by CupCleaner. The results show that the human ratings of the noise data identified by CupCleaner are significantly lower. Then, we applied our data cleaning approach to the training and validation sets of three existing comment updating datasets while keeping the test set unchanged. Our experimental results show that even after filtering out over 30\% of the data using CupCleaner, there is still an improvement in all performance metrics. The experimental results on the cleaned test set also suggest that CupCleaner may provide help for constructing datasets for updating-related tasks.
Abstract（参考訳）: 近年,ディープラーニング技術は,ソフトウェア工学に関連する様々なタスクにおいて,有望な性能を示している。これらの学習ベースアプローチがうまく機能するためには、高品質なデータを取得することが基本的で重要な問題である。コメント更新タスクは、ソースコードの変更に基づいて対応するコメントを自動的に更新することを目的とした、新しいソフトウェアエンジニアリングタスクである。しかしながら、コメント更新タスクのデータセットは通常、コメントの品質管理の欠如があるGitHubなどのオープンソースソフトウェアリポジトリのコミットバージョンからクロールされる。本稿では,ソフトウェア開発におけるコメント更新プロセスの特性を考慮し,既存のコメント更新データセットのクリーニングに着目する。この目的を達成するために,CupCleaner (Comment UPdating's CLEANER) という意味的かつ重なり合うアプローチを提案する。具体的には、コードとコメントのセマンティクスと重なり合う情報に基づいてスコアを計算する。スコアの分布に基づいて、分布の尾部にある低いスコアでデータをフィルタリングして、可能な不潔なデータを排除する。我々はまず,CupCleanerが同定したノイズデータと高品質データについて人間による評価を行った。その結果、CupCleanerが同定したノイズデータの人間の評価は著しく低かった。そして、既存の3つのコメント更新データセットのトレーニングと検証セットに対して、テストセットを変更せずにデータクリーニングアプローチを適用した。実験の結果,cupcleanerを用いて30%以上のデータをフィルタリングした後でも,すべてのパフォーマンス指標が改善されていることがわかった。クリーニングされたテストセットの実験結果は、CupCleanerが関連するタスクを更新するためのデータセットを構築するのに役立つことを示唆している。

関連論文リスト

DD-Ranking: Rethinking the Evaluation of Dataset Distillation [223.28392857127733]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。 DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文参考訳（メタデータ） (2025-05-19T16:19:50Z)
Harnessing Large Language Models for Curated Code Reviews [2.5944208050492183]
コードレビューでは、構造化され、関連するコメントを生成することは、コードの問題を識別し、正確なコード変更を容易にするために不可欠である。既存のコードレビューデータセットは、しばしば騒々しく、未解決であり、AIモデルの学習可能性に制限を課している。本稿では,最大規模の公開コードレビューデータセットの品質向上を目的としたキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-05T18:15:09Z)
Too Noisy To Learn: Enhancing Data Quality for Code Review Comment Generation [2.990411348977783]
オープンソースのデータセットは、自動コードレビュータスクのためのニューラルネットワークのトレーニングに使用される。これらのデータセットには、クリーニングメソッドにもかかわらず持続する大量のノイズの多いコメントが含まれている。大規模言語モデル(LLM)を用いて,これらのデータセットをさらにクリーン化する手法を提案する。
論文参考訳（メタデータ） (2025-02-04T22:48:58Z)
DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では, ベイズ最適化を用いたデータ選択手法として, 影響関数をインターリーブし, 特定の未確認評価タスクからのフィードバックによるデータ混合を最適化する, グローバル・ローカルなアルゴリズムを提案する。 DUETの累積的後悔を解析することにより、DUETはタスクに関するデータ知識がなくても、見えないタスクに対して最適なトレーニングデータ混合に収束することを示す。
論文参考訳（メタデータ） (2025-02-01T01:52:32Z)
Language Modeling with Editable External Knowledge [90.7714362827356]
本稿では,新たな文書取得時のモデル動作を改善するERASEを提案する。ドキュメントを追加するたびに、知識ベースで他のエントリを段階的に削除または書き直します。 7-13%(Mixtral-8x7B)と6-10%(Llama-3-8B)の精度を向上する。
論文参考訳（メタデータ） (2024-06-17T17:59:35Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。実験結果から,本手法は既存手法よりも一貫した改善が得られた。我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文参考訳（メタデータ） (2023-11-27T06:19:50Z)
Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models [25.893228797735908]
本研究は,Jigsaw Civil Comments, Anthropic Harmless & Red Team, PKU BeaverTails & SafeRLHFなど,現実世界のデータセットの信頼性に重点を置いている。ヒトによるこれらのデータセットのクリーニングのコストと困難さを考慮して、データセットの信頼性を評価するための体系的な枠組みを導入する。上記のベンチマークから構築した11のデータセットで、平均6.16%のラベルエラーを発見し、修正する。
論文参考訳（メタデータ） (2023-11-19T02:34:12Z)
Data leakage in cross-modal retrieval training: A case study [16.18916188804986]
提案したSoundDescベンチマークデータセットは,BBC Sound EffectsのWebページから自動的にソースされる。 SoundDescには、トレーニングデータを評価データに漏洩させる複数の重複が含まれていることが判明した。オンラインで利用可能なデータセットに対して、新たなトレーニング、検証、テストの分割を提案します。
論文参考訳（メタデータ） (2023-02-23T09:51:03Z)
Revisiting Long-tailed Image Classification: Survey and Benchmarks with New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文参考訳（メタデータ） (2023-02-03T02:40:54Z)
Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。 Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文参考訳（メタデータ） (2023-01-02T07:13:28Z)
On the Importance of Building High-quality Training Datasets for Neural Code Search [15.557818317497397]
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。 2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
論文参考訳（メタデータ） (2022-02-14T12:02:41Z)
Autoencoder-based cleaning in probabilistic databases [0.0]
ほぼ自動でデータ品質を向上できるデータクリーニングオートエンコーダを提案する。データの構造と依存関係を学び、疑わしい値を識別し、修正する。
論文参考訳（メタデータ） (2021-06-17T18:46:56Z)
How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文参考訳（メタデータ） (2020-03-31T16:03:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。