論文の概要: Named Entity Recognition for Partially Annotated Datasets
- arxiv url: http://arxiv.org/abs/2204.09081v1
- Date: Tue, 19 Apr 2022 18:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 03:46:23.394382
- Title: Named Entity Recognition for Partially Annotated Datasets
- Title(参考訳): 部分アノテーション付きデータセットに対する名前付きエンティティ認識
- Authors: Michael Strobl, Amine Trabelsi and Osmar Zaiane
- Abstract要約: 一部注釈付きデータセットのための3つのトレーニング戦略と、Wikipediaから新しいエンティティのクラスのための新しいデータセットを導出するためのアプローチを比較している。
データ取得とトレーニングのアプローチを適切に検証するには、食品と医薬品という2つの新しいクラスのテストデータセットを手動でアノテートする。
- 参考スコア(独自算出の注目度): 1.3750624267664153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The most common Named Entity Recognizers are usually sequence taggers trained
on fully annotated corpora, i.e. the class of all words for all entities is
known. Partially annotated corpora, i.e. some but not all entities of some
types are annotated, are too noisy for training sequence taggers since the same
entity may be annotated one time with its true type but not another time,
misleading the tagger. Therefore, we are comparing three training strategies
for partially annotated datasets and an approach to derive new datasets for new
classes of entities from Wikipedia without time-consuming manual data
annotation. In order to properly verify that our data acquisition and training
approaches are plausible, we manually annotated test datasets for two new
classes, namely food and drugs.
- Abstract(参考訳): 最も一般的な名前付きエンティティ認識器は、通常、完全注釈付きコーパスで訓練されたシーケンスタグであり、すなわち、すべてのエンティティに対するすべての単語のクラスが知られている。
部分的に注釈付けされたコーパス、すなわち、あるタイプのすべてのエンティティが注釈付けされているわけではないが、同じエンティティが真の型でアノテートされることがあるため、トレーニングシーケンスのタグ付けにはノイズが多すぎる。
そこで我々は,部分注釈付きデータセットに対する3つのトレーニング戦略と,ウィキペディアから新たなエンティティクラスのための新しいデータセットを,手作業によるデータアノテーションを使わずに導き出すアプローチを比較している。
データ取得とトレーニングのアプローチが妥当であることを適切に検証するために、私たちは、食べ物と薬物という2つの新しいクラスのためのテストデータセットを手動で注釈付けしました。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Joint Embedding in Named Entity Linking on Sentence Level [30.229263131244906]
知識グラフから学習した関係を最大化することにより,新しい統合埋め込み手法を提案する。
文レベルで参照エンティティをリンクする方法に重点を置いており、文書内の同じ参照の異なる出現によって生じるノイズを低減する。
論文 参考訳(メタデータ) (2020-02-12T12:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。