Fugu-MT 論文翻訳(概要): An Empirical Study on Noisy Label Learning for Program Understanding

論文の概要: An Empirical Study on Noisy Label Learning for Program Understanding

arxiv url: http://arxiv.org/abs/2307.08990v2
Date: Sun, 31 Dec 2023 06:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 02:10:49.430922
Title: An Empirical Study on Noisy Label Learning for Program Understanding
Title（参考訳）: プログラム理解のための雑音ラベル学習に関する実証的研究
Authors: Wenhan Wang, Yanzhou Li, Anran Li, Jian Zhang, Wei Ma, Yang Liu
Abstract要約: 本稿では,プログラム理解データセットの深層学習における雑音ラベル学習の有効性について検討する。我々は,プログラム分類,脆弱性検出,コード要約という3つのタスクにおいて,様々なNLLアプローチとディープラーニングモデルを評価する。我々の発見は、プログラム理解におけるNLLの能力に関する洞察を与え、ソフトウェアエンジニアリングデータセットのノイズに対処する将来の作業に光を当てることができると信じています。
参考スコア（独自算出の注目度）: 22.81028693504839
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, deep learning models have been widely applied in program understanding tasks, and these models achieve state-of-the-art results on many benchmark datasets. A major challenge of deep learning for program understanding is that the effectiveness of these approaches depends on the quality of their datasets, and these datasets often contain noisy data samples. A typical kind of noise in program understanding datasets is label noise, which means that the target outputs for some inputs are incorrect. Researchers have proposed various approaches to alleviate the negative impact of noisy labels, and formed a new research topic: noisy label learning (NLL). In this paper, we conduct an empirical study on the effectiveness of noisy label learning on deep learning for program understanding datasets. We evaluate various NLL approaches and deep learning models on three tasks: program classification, vulnerability detection, and code summarization. From the evaluation results, we come to the following findings: 1) small trained-from-scratch models are prone to label noises in program understanding, while large pre-trained models are highly robust against them. 2) NLL approaches significantly improve the program classification accuracies for small models on noisy training sets, but they only slightly benefit large pre-trained models in classification accuracies. 3) NLL can effectively detect synthetic noises in program understanding, but struggle in detecting real-world noises. We believe our findings can provide insights on the abilities of NLL in program understanding, and shed light on future works in tackling noises in software engineering datasets. We have released our code at https://github.com/jacobwwh/noise_SE.
Abstract（参考訳）: 近年、深層学習モデルがプログラム理解タスクに広く適用されており、これらのモデルは多くのベンチマークデータセットで最先端の結果を達成している。プログラム理解のためのディープラーニングの大きな課題は、これらのアプローチの有効性がデータセットの品質に依存することである。データセットを理解するプログラムの典型的なノイズはラベルノイズである。研究者はノイズラベルの悪影響を軽減するための様々なアプローチを提案し、新しい研究トピックであるノイズラベル学習(nll)を作成した。本稿では,プログラム理解データセットの深層学習における雑音ラベル学習の有効性に関する実証的研究を行う。我々は,プログラム分類,脆弱性検出,コード要約という3つのタスクにおいて,様々なNLLアプローチとディープラーニングモデルを評価する。評価結果から,以下の知見を得た。 1) 学習済みの小型モデルでは, プログラム理解において雑音をラベル付けする傾向が強いが, 学習済みモデルでは頑健性が高い。 2) NLLアプローチは, ノイズの多い訓練セット上での小型モデルのプログラム分類精度を著しく向上させるが, 分類精度の大きな事前学習モデルにはわずかに効果がある。 3)NLLは,プログラム理解における合成雑音を効果的に検出するが,現実の雑音を検出するのに苦労する。我々の発見は、プログラム理解におけるNLLの能力に関する洞察を与え、ソフトウェアエンジニアリングデータセットのノイズに対処する将来の作業に光を当てることができると信じています。私たちはコードをhttps://github.com/jacobwh/noise_seでリリースした。

関連論文リスト

Classifying Long-tailed and Label-noise Data via Disentangling and Unlearning [58.052712054684946]
実世界のデータセットでは、長い尾の分布とノイズラベルの課題はしばしば共存する。本稿では,長い尾とラベルノイズデータに対するディスタングルとアンラーニングという新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-14T13:58:27Z)
NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文参考訳（メタデータ） (2024-07-09T06:18:40Z)
NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文参考訳（メタデータ） (2024-05-13T10:20:31Z)
Noisy Label Processing for Classification: A Survey [2.8821062918162146]
長い、退屈なデータアノテーションのプロセスでは、アノテーションはミスをしがちで、画像のラベルが正しくない。コンピュータビジョンタスク、特に分類タスクにおいて、ノイズの多いラベルと戦うことが不可欠である。実世界のデータで導かれる合成ラベルノイズパターンを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-05T15:11:09Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
ROG$_{PL}$: Robust Open-Set Graph Learning via Region-Based Prototype Learning [52.60434474638983]
本稿では,複雑な雑音グラフデータに対する堅牢なオープンセット学習を実現するために,ROG$_PL$という統一フレームワークを提案する。このフレームワークは2つのモジュール、すなわちラベルの伝搬による認知と、リージョンによるオープンセットのプロトタイプ学習で構成されている。我々の知る限り、ROG$_PL$は複雑なノイズを持つグラフデータに対して、最初の堅牢なオープンセットノード分類法である。
論文参考訳（メタデータ） (2024-02-28T17:25:06Z)
Multiclass Learning from Noisy Labels for Non-decomposable Performance Measures [15.358504449550013]
非分解性性能尺度の2つのクラスに対して雑音ラベルから学習するアルゴリズムを設計する。どちらの場合も、広範に研究されているクラス条件雑音モデルの下で、アルゴリズムのノイズ補正バージョンを開発する。実験では,ラベルノイズ処理におけるアルゴリズムの有効性を実証した。
論文参考訳（メタデータ） (2024-02-01T23:03:53Z)
Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-24T20:28:59Z)
Robust Meta-learning with Sampling Noise and Label Noise via Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文参考訳（メタデータ） (2022-06-04T08:48:02Z)
Learning with Noisy Labels Revisited: A Study Using Real-World Human Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文参考訳（メタデータ） (2021-10-22T22:42:11Z)
Learning from Multiple Noisy Augmented Data Sets for Better Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文参考訳（メタデータ） (2021-09-03T15:44:15Z)
Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文参考訳（メタデータ） (2020-09-30T15:45:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。