論文の概要: An Empirical Study on the Effectiveness of Noisy Label Learning for
Program Understanding
- arxiv url: http://arxiv.org/abs/2307.08990v1
- Date: Tue, 18 Jul 2023 06:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 17:12:45.207225
- Title: An Empirical Study on the Effectiveness of Noisy Label Learning for
Program Understanding
- Title(参考訳): プログラム理解における雑音ラベル学習の有効性に関する実証的研究
- Authors: Wenhan Wang, Yanzhou Li, Anran Li, Jian Zhang, Wei Ma, Yang Liu
- Abstract要約: プログラム分類とコード要約という2つのタスクにおいて,様々なノイズラベル学習手法と深層学習モデルを評価する。
ラベルノイズとNLLアプローチが小規模なディープラーニングモデルと大規模事前学習モデルに与える影響は異なる。
NLLアプローチは、両方のタスクに対してノイズのあるラベル付きサンプルを特定することで満足な結果を示している。
- 参考スコア(独自算出の注目度): 22.81028693504839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, deep learning models have been widely applied in program
understanding tasks, and these models achieve state-of-the-art results on many
benchmark datasets. A major challenge of deep learning for program
understanding is that the effectiveness of these approaches depends on the
quality of their datasets, and these datasets often contain noisy data samples.
A typical kind of noise in program understanding datasets is label noises,
which means that the target outputs for some inputs are mislabeled.
Label noises may have a negative impact on the performance of deep learning
models, so researchers have proposed various approaches to alleviate the impact
of noisy labels, and formed a new research topic: noisy label learning (NLL).
In this paper, we conduct an empirical study on the effectiveness of noisy
label learning on deep learning for program understanding datasets. We evaluate
various noisy label learning approaches and deep learning models on two tasks:
program classification and code summarization. From the evaluation results, we
find that the impact of label noise and NLL approaches on small deep learning
models and large pre-trained models are different: small models are prone to
label noises in program classification and NLL approaches can improve their
robustness, while large pre-trained models are robust against label noises and
NLL does not significantly improve their performances. On the other hand, NLL
approaches have shown satisfying results in identifying noisy labeled samples
for both tasks, indicating that these techniques can benefit researchers in
building high-quality program understanding datasets.
- Abstract(参考訳): 近年、深層学習モデルがプログラム理解タスクに広く適用されており、これらのモデルは多くのベンチマークデータセットで最先端の結果を達成している。
プログラム理解のためのディープラーニングの大きな課題は、これらのアプローチの有効性がデータセットの品質に依存することである。
データセットを理解するプログラムの典型的なノイズはラベルノイズである。
ラベルノイズはディープラーニングモデルのパフォーマンスに悪影響を及ぼす可能性があるため、研究者はノイズラベルの影響を軽減するための様々なアプローチを提案し、新しい研究トピックであるノイズラベル学習(nll)を作成した。
本稿では,プログラム理解データセットの深層学習における雑音ラベル学習の有効性に関する実証的研究を行う。
プログラム分類とコード要約という2つのタスクにおいて,様々なノイズラベル学習手法と深層学習モデルを評価する。
評価結果から,ラベルノイズやNLLアプローチが小さなディープラーニングモデルや大規模事前学習モデルに与える影響は,プログラム分類におけるラベルノイズの傾向や,NLLアプローチが頑健性を改善する一方で,大規模事前学習モデルはラベルノイズに対して頑健であり,NLLが性能を著しく改善しないなど,異なることがわかった。
一方、NLLアプローチは、両方のタスクに対してノイズ付きラベル付きサンプルを識別する際の満足な結果を示しており、これらの手法は、高品質なプログラム理解データセットを構築するのに有用であることを示している。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - Noisy Label Processing for Classification: A Survey [2.8821062918162146]
長い、退屈なデータアノテーションのプロセスでは、アノテーションはミスをしがちで、画像のラベルが正しくない。
コンピュータビジョンタスク、特に分類タスクにおいて、ノイズの多いラベルと戦うことが不可欠である。
実世界のデータで導かれる合成ラベルノイズパターンを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-05T15:11:09Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - ROG$_{PL}$: Robust Open-Set Graph Learning via Region-Based Prototype
Learning [52.60434474638983]
本稿では,複雑な雑音グラフデータに対する堅牢なオープンセット学習を実現するために,ROG$_PL$という統一フレームワークを提案する。
このフレームワークは2つのモジュール、すなわちラベルの伝搬による認知と、リージョンによるオープンセットのプロトタイプ学習で構成されている。
我々の知る限り、ROG$_PL$は複雑なノイズを持つグラフデータに対して、最初の堅牢なオープンセットノード分類法である。
論文 参考訳(メタデータ) (2024-02-28T17:25:06Z) - Multiclass Learning from Noisy Labels for Non-decomposable Performance Measures [15.358504449550013]
非分解性性能尺度の2つのクラスに対して雑音ラベルから学習するアルゴリズムを設計する。
どちらの場合も、広範に研究されているクラス条件雑音モデルの下で、アルゴリズムのノイズ補正バージョンを開発する。
実験では,ラベルノイズ処理におけるアルゴリズムの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-01T23:03:53Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。