論文の概要: Bogus Bugs, Duplicates, and Revealing Comments: Data Quality Issues in NPR
- arxiv url: http://arxiv.org/abs/2503.08532v1
- Date: Tue, 11 Mar 2025 15:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:14.260283
- Title: Bogus Bugs, Duplicates, and Revealing Comments: Data Quality Issues in NPR
- Title(参考訳): Bogus Bugs、Duplicates、Revealingコメント:NPRのデータ品質問題
- Authors: Julian Aron Prenner, Romain Robbes,
- Abstract要約: 大規模なAPRデータセットとベンチマークを扱う際に、私たちが遭遇したデータ関連の問題をいくつか報告します。
よりデータにフォーカスしたアプローチは、現在のAPRシステムと将来のAPRシステムの性能と堅牢性を改善することができると考えています。
- 参考スコア(独自算出の注目度): 4.852619858744873
- License:
- Abstract: The performance of a machine learning system is not only determined by the model but also, to a substantial degree, by the data it is trained on. With the increasing use of machine learning, issues related to data quality have become a concern also in automated program repair research. In this position paper, we report some of the data-related issues we have come across when working with several large APR datasets and benchmarks, including, for instance, duplicates or "bogus bugs". We briefly discuss the potential impact of these problems on repair performance and propose possible remedies. We believe that more data-focused approaches could improve the performance and robustness of current and future APR systems.
- Abstract(参考訳): 機械学習システムの性能はモデルによって決定されるだけでなく、トレーニングされたデータによってある程度決定される。
機械学習の普及に伴い、自動プログラム修復研究においても、データ品質に関する問題が懸念されている。
本稿では、大規模なAPRデータセットやベンチマークを扱う際に、例えば重複や“バグ”など、私たちが遭遇したデータ関連の問題について報告する。
本稿では,これらの問題が補修性能に与える影響を概説し,改善の可能性を提案する。
よりデータ中心のアプローチは、現在のAPRシステムと将来のAPRシステムの性能と堅牢性を改善することができると信じています。
関連論文リスト
- Towards Understanding the Impact of Data Bugs on Deep Learning Models in Software Engineering [13.17302533571231]
ディープラーニング(DL)システムは、トレーニングデータを含む多くのソースからのバグがちである。
既存の文献では、トレーニングデータのバグが非常に多いことが示唆されている。
本稿では,コードベース,テキストベース,メトリックベースの3種類のデータについて検討する。
論文 参考訳(メタデータ) (2024-11-19T00:28:20Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - rWISDM: Repaired WISDM, a Public Dataset for Human Activity Recognition [0.0]
HAR(Human Activity Recognition)は、医療、運動競技、スマートシティ、スマートホームといった様々な分野に応用されているため、近年の科学的研究において注目されている。
本稿では,他の研究者が公開データセットに類似した問題を同定し,修正する手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T13:55:50Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Data Quality Toolkit: Automatic assessment of data quality and
remediation for machine learning datasets [11.417891017429882]
Data Quality Toolkit for Machine Learningは、いくつかの重要な品質指標と関連する修復テクニックのライブラリである。
データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化する。
論文 参考訳(メタデータ) (2021-08-12T19:22:27Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Automatic Feasibility Study via Data Quality Analysis for ML: A
Case-Study on Label Noise [21.491392581672198]
我々はSnoopyを紹介し、データサイエンティストと機械学習エンジニアが体系的で理論的に確立された実現可能性研究を行うのを支援することを目的としている。
我々は、基礎となるタスクの既約誤差を推定し、この問題にアプローチする。
エンド・ツー・エンドの実験では、ユーザーがかなりのラベリング時間と金銭的努力を節約できることを示す。
論文 参考訳(メタデータ) (2020-10-16T14:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。