論文の概要: RoPDA: Robust Prompt-based Data Augmentation for Low-Resource Named
Entity Recognition
- arxiv url: http://arxiv.org/abs/2307.07417v2
- Date: Mon, 17 Jul 2023 06:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 19:26:06.014054
- Title: RoPDA: Robust Prompt-based Data Augmentation for Low-Resource Named
Entity Recognition
- Title(参考訳): RoPDA:ローソース名前付きエンティティ認識のためのロバストプロンプトに基づくデータ拡張
- Authors: Sihan Song, Furao Shen, Jian Zhao
- Abstract要約: 低リソースNERのためのロバストプロンプトベースデータ拡張(RoPDA)
継続的なプロンプトを持つ事前学習言語モデル(PLM)に基づいて、RoPDAはエンティティ拡張とコンテキスト拡張を実行する。
異なるドメインの3つのベンチマークの実験では、RoPDAは強いベースラインで大幅に改善されている。
- 参考スコア(独自算出の注目度): 10.03246698225533
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data augmentation has been widely used in low-resource NER tasks to tackle
the problem of data sparsity. However, previous data augmentation methods have
the disadvantages of disrupted syntactic structures, token-label mismatch, and
requirement for external knowledge or manual effort. To address these issues,
we propose Robust Prompt-based Data Augmentation (RoPDA) for low-resource NER.
Based on pre-trained language models (PLMs) with continuous prompt, RoPDA
performs entity augmentation and context augmentation through five fundamental
augmentation operations to generate label-flipping and label-preserving
examples. To optimize the utilization of the augmented samples, we present two
techniques: Self-Consistency Filtering and mixup. The former effectively
eliminates low-quality samples, while the latter prevents performance
degradation arising from the direct utilization of label-flipping samples.
Extensive experiments on three benchmarks from different domains demonstrate
that RoPDA significantly improves upon strong baselines, and also outperforms
state-of-the-art semi-supervised learning methods when unlabeled data is
included.
- Abstract(参考訳): データ拡張は低リソースのNERタスクで広く使われ、データの分散性の問題に対処している。
しかしながら、以前のデータ拡張手法は、構文構造、トークンラベルミスマッチ、外部知識や手作業の要件を乱すという欠点がある。
これらの問題に対処するため、低リソースNERのためのRoPDA(Roust Prompt-based Data Augmentation)を提案する。
継続的なプロンプトを持つ事前学習言語モデル(PLM)に基づいて、RoPDAは5つの基本的な拡張操作を通じてエンティティ拡張とコンテキスト拡張を行い、ラベルフリップとラベル保存の例を生成する。
拡張サンプルの利用を最適化するために, 自己整合性フィルタとミックスアップという2つの手法を提案する。
前者は低品質サンプルを効果的に除去し、後者はラベルフライングサンプルの直接利用による性能低下を防止する。
異なる領域からの3つのベンチマークによる大規模な実験により、RoPDAは強いベースラインを著しく改善し、ラベルなしデータを含む場合、最先端の半教師付き学習手法よりも優れていることが示された。
関連論文リスト
- Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Towards Robust Aspect-based Sentiment Analysis through
Non-counterfactual Augmentations [40.71705332298682]
非事実的データ拡張に依存する代替手法を提案する。
我々のアプローチはさらにABSAロバストネスベンチマークの新たな最先端を確立し、ドメイン間でうまく転送する。
論文 参考訳(メタデータ) (2023-06-24T13:57:32Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Reprint: a randomized extrapolation based on principal components for
data augmentation [11.449992652644577]
本稿では,不均衡なデータ分類のための,シンプルで効果的な隠れ空間データ拡張手法を提案する。
各クラス内のサンプルの隠れスペース表現を与えられたREPRINTは、ランダムな方法で、ターゲットクラスの拡張例を外挿する。
この方法は、拡張例のために新しい軟質ラベルを合成できるラベル改質成分を含む。
論文 参考訳(メタデータ) (2022-04-26T01:38:47Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Data Augmentation Imbalance For Imbalanced Attribute Classification [60.71438625139922]
本稿では,データ拡張不均衡(DAI)と呼ばれる新しい再サンプリングアルゴリズムを提案する。
我々のDAIアルゴリズムは歩行者属性のデータセットに基づいて最先端の結果を得る。
論文 参考訳(メタデータ) (2020-04-19T20:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。