論文の概要: Finetuning BERT on Partially Annotated NER Corpora
- arxiv url: http://arxiv.org/abs/2211.14360v1
- Date: Fri, 25 Nov 2022 19:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:29:17.325239
- Title: Finetuning BERT on Partially Annotated NER Corpora
- Title(参考訳): 部分アノテーション付きNERコーパスの微細化
- Authors: Viktor Scherbakov and Vladimir Mayorov
- Abstract要約: 本研究は、自己スーパービジョンとラベル前処理を用いて、部分ラベル付きデータセット上でBERTを微調整するアプローチを提案する。
提案手法は従来のLSTMベースのラベル前処理ベースラインよりも優れており,ラベルの粗末なデータセットの性能が著しく向上している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most Named Entity Recognition (NER) models operate under the assumption that
training datasets are fully labelled. While it is valid for established
datasets like CoNLL 2003 and OntoNotes, sometimes it is not feasible to obtain
the complete dataset annotation. These situations may occur, for instance,
after selective annotation of entities for cost reduction. This work presents
an approach to finetuning BERT on such partially labelled datasets using
self-supervision and label preprocessing. Our approach outperforms the previous
LSTM-based label preprocessing baseline, significantly improving the
performance on poorly labelled datasets. We demonstrate that following our
approach while finetuning RoBERTa on CoNLL 2003 dataset with only 10% of total
entities labelled is enough to reach the performance of the baseline trained on
the same dataset with 50% of the entities labelled.
- Abstract(参考訳): ほとんどの名前付きエンティティ認識(NER)モデルは、トレーニングデータセットが完全にラベル付けされているという前提の下で動作します。
CoNLL 2003やOntoNotesのような確立したデータセットには有効だが、完全なデータセットアノテーションを取得することは不可能である場合もある。
これらの状況は、例えばコスト削減のためのエンティティの選択的アノテーションの後に起こりうる。
この研究は、自己スーパービジョンとラベル前処理を用いて、部分ラベル付きデータセット上でBERTを微調整するアプローチを示す。
提案手法は従来のLSTMベースのラベル前処理ベースラインよりも優れており,ラベル付きデータセットの性能は著しく向上している。
我々は、CoNLL 2003データセット上でRoBERTaを微調整しながら、ラベル付けされた全エンティティの10%しか持たず、同じデータセット上でトレーニングされたベースラインのパフォーマンスとラベル付けされたエンティティの50%に到達できることを示した。
関連論文リスト
- Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Aligning benchmark datasets for table structure recognition [10.323063834827416]
テーブル構造認識(TSR)のためのベンチマークデータセットは、それらが一貫していることを保証するために慎重に処理する必要がある。
本研究では,これらのベンチマークをx$removing errorと不整合に合わせることで,性能が大幅に向上することを示す。
全体として、我々の作業はベンチマーク処理のパフォーマンスや、潜在的に他のタスクにも重大な影響があると信じています。
論文 参考訳(メタデータ) (2023-03-01T18:20:24Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Recognizing Nested Entities from Flat Supervision: A New NER Subtask,
Feasibility and Challenges [3.614392310669357]
本研究では,現実的な応用シナリオに対応する新しいサブタスクであるネスト・オブ・フラットNERを提案する。
ラベル付きエンティティ内でネストされたスパンを意図的に無視し、スパンベースのモデルをトレーニングします。
トレーニングデータからネストされたエンティティを除去すると,ACE 2004,ACE 2005,GENIAの各エンティティ内のスパンのサブセットに対して54.8%,54.2%,41.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2022-11-01T06:41:42Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z) - QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query
Attribute Value Extraction [57.56700153507383]
本稿では,QUEACOというEコマース検索におけるクエリ属性値の統一抽出システムを提案する。
NER フェーズでは、QUEACO は教師-学生ネットワークを採用し、強くラベル付けされたデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成する。
AVN フェーズでは、弱いラベル付けされたクエリ・ツー・アトリビュート・ビヘイビア・データを利用して、クエリーから表層属性値の正規化を行い、製品から標準形式へと変換する。
論文 参考訳(メタデータ) (2021-08-19T03:24:23Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。