論文の概要: Software Entity Recognition with Noise-Robust Learning
- arxiv url: http://arxiv.org/abs/2308.10564v1
- Date: Mon, 21 Aug 2023 08:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:18:14.181518
- Title: Software Entity Recognition with Noise-Robust Learning
- Title(参考訳): ノイズロバスト学習によるソフトウェアエンティティ認識
- Authors: Tai Nguyen, Yifeng Di, Joohan Lee, Muhao Chen and Tianyi Zhang
- Abstract要約: ウィキペディアの分類を利用して、12のきめ細かいタイプで79Kのユニークなソフトウェアエンティティを持つ包括的なエンティティ辞書を開発する。
そこで我々は,多くのドロップアウトを考慮に入れたソフトウェアエンティティ認識モデルのトレーニングに対して,ノイズローバスト学習手法である自己正規化を提案する。
その結果、自己正規化でトレーニングされたモデルは、私たちのWikipediaベンチマークと2つのStack Overflowベンチマークにおいて、バニラと最先端のアプローチの両方よりも優れています。
- 参考スコア(独自算出の注目度): 31.259250137320468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing software entities such as library names from free-form text is
essential to enable many software engineering (SE) technologies, such as
traceability link recovery, automated documentation, and API recommendation.
While many approaches have been proposed to address this problem, they suffer
from small entity vocabularies or noisy training data, hindering their ability
to recognize software entities mentioned in sophisticated narratives. To
address this challenge, we leverage the Wikipedia taxonomy to develop a
comprehensive entity lexicon with 79K unique software entities in 12
fine-grained types, as well as a large labeled dataset of over 1.7M sentences.
Then, we propose self-regularization, a noise-robust learning approach, to the
training of our software entity recognition (SER) model by accounting for many
dropouts. Results show that models trained with self-regularization outperform
both their vanilla counterparts and state-of-the-art approaches on our
Wikipedia benchmark and two Stack Overflow benchmarks. We release our models,
data, and code for future research.
- Abstract(参考訳): フリーフォームテキストからライブラリ名などのソフトウェアエンティティを認識することは、トレーサビリティリンクリカバリ、自動ドキュメント、APIレコメンデーションなど、多くのソフトウェアエンジニアリング(SE)技術を実現するために不可欠である。
この問題に対処するために多くのアプローチが提案されているが、彼らは小さなエンティティ語彙や騒がしいトレーニングデータに悩まされ、洗練された物語で言及されるソフトウェアエンティティを認識する能力を妨げる。
この課題に対処するために、ウィキペディアの分類学を利用して、12のきめ細かい型で79Kのユニークなソフトウェアエンティティと、170万以上の文のラベル付きデータセットを持つ包括的なエンティティ辞書を開発する。
そこで我々は,ソフトウェアエンティティ認識(SER)モデルの学習において,多くのドロップアウトを考慮した自己正規化を提案する。
その結果、wikipediaベンチマークとstack overflowベンチマークでは、自己正規化でトレーニングされたモデルは、バニラと最先端のアプローチの両方よりも優れています。
将来の研究のために、モデル、データ、コードをリリースします。
関連論文リスト
- RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。
以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文 参考訳(メタデータ) (2023-10-27T14:13:23Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Detecting Requirements Smells With Deep Learning: Experiences,
Challenges and Future Work [9.44316959798363]
本研究の目的は,手動でラベル付きデータセットを作成し,アンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて一般化問題を克服することで,従来の作業を改善することである。
現在の調査結果は、データセットが不均衡であり、どのクラスをもっと追加すべきかを示している。
論文 参考訳(メタデータ) (2021-08-06T12:45:15Z) - A Survey on Deep Learning with Noisy Labels: How to train your model
when you cannot trust on the annotations? [21.562089974755125]
ノイズラベルの存在下でのディープラーニングモデルのトレーニングを改善するために,いくつかのアプローチが提案されている。
本稿では,ロバストな損失,サンプル重み付け,サンプル選択,メタラーニング,組み合わせアプローチの3つのグループでアルゴリズムを分類する。
論文 参考訳(メタデータ) (2020-12-05T15:45:20Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。