論文の概要: Pre-trained Language Models as Re-Annotators
- arxiv url: http://arxiv.org/abs/2205.05368v1
- Date: Wed, 11 May 2022 09:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 16:47:47.782966
- Title: Pre-trained Language Models as Re-Annotators
- Title(参考訳): Re-Annotatorとしての事前学習言語モデル
- Authors: Chang Shu
- Abstract要約: 事前学習言語モデルから意味センシティブなアノテーション表現を取得する方法について検討する。
アノテーション修正のためのクロスバリデーションに基づく事前学習言語モデルを微調整する。
関係抽出における再アノテーションについて検討し、手動で改訂したデータセットRe-DocREDを作成する。
- 参考スコア(独自算出の注目度): 3.193067591317475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Annotation noise is widespread in datasets, but manually revising a flawed
corpus is time-consuming and error-prone. Hence, given the prior knowledge in
Pre-trained Language Models and the expected uniformity across all annotations,
we attempt to reduce annotation noise in the corpus through two tasks
automatically: (1) Annotation Inconsistency Detection that indicates the
credibility of annotations, and (2) Annotation Error Correction that rectifies
the abnormal annotations.
We investigate how to acquire semantic sensitive annotation representations
from Pre-trained Language Models, expecting to embed the examples with
identical annotations to the mutually adjacent positions even without
fine-tuning. We proposed a novel credibility score to reveal the likelihood of
annotation inconsistencies based on the neighbouring consistency. Then, we
fine-tune the Pre-trained Language Models based classifier with
cross-validation for annotation correction. The annotation corrector is further
elaborated with two approaches: (1) soft labelling by Kernel Density Estimation
and (2) a novel distant-peer contrastive loss.
We study the re-annotation in relation extraction and create a new manually
revised dataset, Re-DocRED, for evaluating document-level re-annotation. The
proposed credibility scores show promising agreement with human revisions,
achieving a Binary F1 of 93.4 and 72.5 in detecting inconsistencies on TACRED
and DocRED respectively. Moreover, the neighbour-aware classifiers based on
distant-peer contrastive learning and uncertain labels achieve Macro F1 up to
66.2 and 57.8 in correcting annotations on TACRED and DocRED respectively.
These improvements are not merely theoretical: Rather, automatically denoised
training sets demonstrate up to 3.6% performance improvement for
state-of-the-art relation extraction models.
- Abstract(参考訳): アノテーションのノイズはデータセットで広く見られるが、欠陥のあるコーパスを手動で修正するのは時間がかかり、エラーが発生しやすい。
したがって、事前訓練された言語モデルにおける事前知識と全てのアノテーションの統一性を考慮し、(1)アノテーションの信頼性を示すアノテーション不整合検出、(2)異常アノテーションの修正を行うアノテーションエラー補正という2つのタスクを通じて、コーパス内のアノテーションノイズを自動的に低減しようとする。
本研究では,事前訓練された言語モデルから意味センシティブなアノテーション表現を取得する方法を検討する。
我々は,隣接する一貫性に基づくアノテーションの不整合の可能性を明らかにするために,新たな信頼度スコアを提案した。
次に,事前学習言語モデルに基づく分類器を,アノテーション修正のためのクロスバリデーションで微調整する。
アノテーション補正器は,(1)ケルネル密度推定によるソフトラベリングと(2)新しい遠点のコントラスト損失の2つのアプローチでさらに詳しく検討する。
関係抽出における再アノテーションについて検討し、文書レベルの再アノテーションを評価するために新しい手動修正データセットRe-DocREDを作成する。
提案する信頼度スコアは、tacredとdocredの非一貫性を検出する際に、93.4と72.5のバイナリf1を達成する有望な一致を示す。
さらに、遠隔ピアコントラスト学習と不確実なラベルに基づく近隣認識分類器は、それぞれTACREDおよびDocREDのアノテーションの修正において、マクロF1を66.2および57.8まで達成する。
これらの改善は単に理論的なものではなく、自動分断されたトレーニングセットは最先端の関係抽出モデルで最大3.6%のパフォーマンス改善を示す。
関連論文リスト
- SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Learning to Revise References for Faithful Summarization [10.795263196202159]
すべてのデータを保持しながら参照品質を改善するための新しい手法を提案する。
支援文に対する合成なしの代替語を構築し、対照的な学習を用いて、不誠実な修正を回避/促進する。
電子健康記録(EHR)と呼ばれるノイズの多い音源から小さなコーパスを抽出し,複数のノートから病院入院を要約する作業を行う。
論文 参考訳(メタデータ) (2022-04-13T18:54:19Z) - Striking a Balance: Alleviating Inconsistency in Pre-trained Models for
Symmetric Classification Tasks [4.971443651456398]
不整合は、予測されたラベルまたは信頼スコアでしばしば観察される。
我々は、このモデルの欠点を強調し、対称分類の不整合を軽減するために整合損失関数を適用した。
その結果,精度の低下を伴わない3つのパラフレーズ検出データセットに対する予測の整合性が改善された。
論文 参考訳(メタデータ) (2022-03-25T07:55:39Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - A Novel Metric for Evaluating Semantics Preservation [48.69930912510414]
我々は、事前学習言語モデル(PLM)を活用し、文の編集過程のセマンティクス保存を評価する。
我々の測定値であるNDD(Neighbor Distribution Divergence)は、隣接する単語の予測分布の乱れを評価する。
NDDはテキストの類似性によって容易に無視されるセマンティクスの正確な変化を検出することができる。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Partially Supervised Named Entity Recognition via the Expected Entity
Ratio Loss [2.9176780332337486]
我々は,エンティティアノテーションが欠落している状況下で,エンティティ認識者という名前の学習を研究する。
我々は、体系的に欠落したタグの存在下でモデルを学ぶために、新しい損失である期待されたエンティティ比を提案する。
提案手法は理論的に健全であり,実証的に有用であることを示す。
論文 参考訳(メタデータ) (2021-08-16T16:53:39Z) - Learning from Crowds with Sparse and Imbalanced Annotations [29.596070201105274]
クラウドソーシングは、非専門家の群衆を頼りにすることで、効率的なラベリングソリューションとして自らを確立した。
一般的には、各インスタンスを複数のワーカに配布するが、各ワーカはデータのサブセットのみをアノテートする。
本稿では、自信ある擬似アノテーションを段階的に追加し、アノテーション分布を再バランスさせることにより、自己学習に基づく1つのアプローチ、Self-Crowdを提案する。
論文 参考訳(メタデータ) (2021-07-11T13:06:20Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Uncertainty-Aware Annotation Protocol to Evaluate Deformable
Registration Algorithms [3.2845753359072125]
変形性登録における金規格構築のための原則的な戦略を紹介します。
i) 従来のアノテーションとの冗長性を考慮して、次に注釈をつけるための最も有益な場所を反復的に提案する; (ii) それぞれのアノテーションの空間的不確実性を考慮して、従来のポイントワイズアノテーションを拡張する; (iii) 自然に変形可能な登録アルゴリズムを評価するための新しい戦略を提供する。
論文 参考訳(メタデータ) (2021-04-02T19:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。