論文の概要: Pre-trained Language Models as Re-Annotators
- arxiv url: http://arxiv.org/abs/2205.05368v1
- Date: Wed, 11 May 2022 09:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 16:47:47.782966
- Title: Pre-trained Language Models as Re-Annotators
- Title(参考訳): Re-Annotatorとしての事前学習言語モデル
- Authors: Chang Shu
- Abstract要約: 事前学習言語モデルから意味センシティブなアノテーション表現を取得する方法について検討する。
アノテーション修正のためのクロスバリデーションに基づく事前学習言語モデルを微調整する。
関係抽出における再アノテーションについて検討し、手動で改訂したデータセットRe-DocREDを作成する。
- 参考スコア(独自算出の注目度): 3.193067591317475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Annotation noise is widespread in datasets, but manually revising a flawed
corpus is time-consuming and error-prone. Hence, given the prior knowledge in
Pre-trained Language Models and the expected uniformity across all annotations,
we attempt to reduce annotation noise in the corpus through two tasks
automatically: (1) Annotation Inconsistency Detection that indicates the
credibility of annotations, and (2) Annotation Error Correction that rectifies
the abnormal annotations.
We investigate how to acquire semantic sensitive annotation representations
from Pre-trained Language Models, expecting to embed the examples with
identical annotations to the mutually adjacent positions even without
fine-tuning. We proposed a novel credibility score to reveal the likelihood of
annotation inconsistencies based on the neighbouring consistency. Then, we
fine-tune the Pre-trained Language Models based classifier with
cross-validation for annotation correction. The annotation corrector is further
elaborated with two approaches: (1) soft labelling by Kernel Density Estimation
and (2) a novel distant-peer contrastive loss.
We study the re-annotation in relation extraction and create a new manually
revised dataset, Re-DocRED, for evaluating document-level re-annotation. The
proposed credibility scores show promising agreement with human revisions,
achieving a Binary F1 of 93.4 and 72.5 in detecting inconsistencies on TACRED
and DocRED respectively. Moreover, the neighbour-aware classifiers based on
distant-peer contrastive learning and uncertain labels achieve Macro F1 up to
66.2 and 57.8 in correcting annotations on TACRED and DocRED respectively.
These improvements are not merely theoretical: Rather, automatically denoised
training sets demonstrate up to 3.6% performance improvement for
state-of-the-art relation extraction models.
- Abstract(参考訳): アノテーションのノイズはデータセットで広く見られるが、欠陥のあるコーパスを手動で修正するのは時間がかかり、エラーが発生しやすい。
したがって、事前訓練された言語モデルにおける事前知識と全てのアノテーションの統一性を考慮し、(1)アノテーションの信頼性を示すアノテーション不整合検出、(2)異常アノテーションの修正を行うアノテーションエラー補正という2つのタスクを通じて、コーパス内のアノテーションノイズを自動的に低減しようとする。
本研究では,事前訓練された言語モデルから意味センシティブなアノテーション表現を取得する方法を検討する。
我々は,隣接する一貫性に基づくアノテーションの不整合の可能性を明らかにするために,新たな信頼度スコアを提案した。
次に,事前学習言語モデルに基づく分類器を,アノテーション修正のためのクロスバリデーションで微調整する。
アノテーション補正器は,(1)ケルネル密度推定によるソフトラベリングと(2)新しい遠点のコントラスト損失の2つのアプローチでさらに詳しく検討する。
関係抽出における再アノテーションについて検討し、文書レベルの再アノテーションを評価するために新しい手動修正データセットRe-DocREDを作成する。
提案する信頼度スコアは、tacredとdocredの非一貫性を検出する際に、93.4と72.5のバイナリf1を達成する有望な一致を示す。
さらに、遠隔ピアコントラスト学習と不確実なラベルに基づく近隣認識分類器は、それぞれTACREDおよびDocREDのアノテーションの修正において、マクロF1を66.2および57.8まで達成する。
これらの改善は単に理論的なものではなく、自動分断されたトレーニングセットは最先端の関係抽出モデルで最大3.6%のパフォーマンス改善を示す。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Unsupervised Pretraining for Fact Verification by Language Model
Distillation [4.504050940874427]
SFAVEL (Self-supervised Fact Verification via Language Model Distillation) は,教師なし事前学習フレームワークである。
アノテーションを必要とせずに、自己管理機能を高品質なクレーム-ファクトアライメントに分解する。
これは、特徴が高品質なクレームとエビデンスアライメントを達成することを奨励する、新しい対照的な損失関数によって実現されている。
論文 参考訳(メタデータ) (2023-09-28T15:53:44Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Mention Annotations Alone Enable Efficient Domain Adaptation for
Coreference Resolution [8.08448832546021]
注釈付けだけでは、注釈付けが完全なコア参照チェーンの約2倍の速さであることを示す。
提案手法はアノテーション効率を向上し,アノテータ時間の増加を伴わずにF1の平均値が7~14%向上する。
論文 参考訳(メタデータ) (2022-10-14T07:57:27Z) - End-to-End Label Uncertainty Modeling in Speech Emotion Recognition
using Bayesian Neural Networks and Label Distribution Learning [0.0]
本稿では,アノテーションの分布をトレーニングし,主観性に基づくラベルの不確かさを捕捉するエンド・ツー・エンドのベイズニューラルネットワークを提案する。
提案手法は, 音声の感情認識において, 最先端の不確実性モデリング結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-30T12:55:43Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Learning to Revise References for Faithful Summarization [10.795263196202159]
すべてのデータを保持しながら参照品質を改善するための新しい手法を提案する。
支援文に対する合成なしの代替語を構築し、対照的な学習を用いて、不誠実な修正を回避/促進する。
電子健康記録(EHR)と呼ばれるノイズの多い音源から小さなコーパスを抽出し,複数のノートから病院入院を要約する作業を行う。
論文 参考訳(メタデータ) (2022-04-13T18:54:19Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。