論文の概要: DaN+: Danish Nested Named Entities and Lexical Normalization
- arxiv url: http://arxiv.org/abs/2105.11301v1
- Date: Mon, 24 May 2021 14:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 19:08:13.752147
- Title: DaN+: Danish Nested Named Entities and Lexical Normalization
- Title(参考訳): DaN+:デンマークのNested Named Entitiesと語彙正規化
- Authors: Barbara Plank, Kristian N{\o}rgaard Jensen and Rob van der Goot
- Abstract要約: 本稿では,デンマークのネスト付き名前付きエンティティ(NE)と語彙正規化のための,新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介する。
我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。
以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。
- 参考スコア(独自算出の注目度): 18.755176247223616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces DaN+, a new multi-domain corpus and annotation
guidelines for Danish nested named entities (NEs) and lexical normalization to
support research on cross-lingual cross-domain learning for a less-resourced
language. We empirically assess three strategies to model the two-layer Named
Entity Recognition (NER) task. We compare transfer capabilities from German
versus in-language annotation from scratch. We examine language-specific versus
multilingual BERT, and study the effect of lexical normalization on NER. Our
results show that 1) the most robust strategy is multi-task learning which is
rivaled by multi-label decoding, 2) BERT-based NER models are sensitive to
domain shifts, and 3) in-language BERT and lexical normalization are the most
beneficial on the least canonical data. Our results also show that an
out-of-domain setup remains challenging, while performance on news plateaus
quickly. This highlights the importance of cross-domain evaluation of
cross-lingual transfer.
- Abstract(参考訳): 本稿では、デンマークのネスト付き名前付きエンティティ(NE)のための新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介し、低リソース言語のための言語間クロスドメイン学習の研究を支援する。
我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。
ドイツ語からの変換能力と言語内アノテーションをスクラッチから比較する。
言語特異的対多言語BERTについて検討し, 語彙正規化がNERに与える影響について検討した。
以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。
結果として、ドメイン外セットアップは依然として困難であり、ニュースのパフォーマンスは急速に高まります。
これは言語間伝達のクロスドメイン評価の重要性を強調している。
関連論文リスト
- mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Few-Shot Nested Named Entity Recognition [4.8693196802491405]
本論文は,数発のネストNERタスクを研究対象とする最初の論文である。
本稿では、コンテキスト依存を学習し、ネストしたエンティティを識別するためのBiaffine-based Contrastive Learning (BCL)フレームワークを提案する。
BCLはF1スコアで1ショットと5ショットの3つのベースラインモデルを上回った。
論文 参考訳(メタデータ) (2022-12-02T03:42:23Z) - DualNER: A Dual-Teaching framework for Zero-shot Cross-lingual Named
Entity Recognition [27.245171237640502]
DualNERは、注釈付きソース言語コーパスとラベルなしターゲット言語テキストの両方をフル活用するためのフレームワークである。
NERの2つの相補的な学習パラダイム、すなわちシーケンスラベリングとスパン予測を統合マルチタスクフレームワークに統合する。
論文 参考訳(メタデータ) (2022-11-15T12:50:59Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Generalised Unsupervised Domain Adaptation of Neural Machine Translation
with Cross-Lingual Data Selection [34.90952499734384]
そこで本研究では,多言語単一言語コーパスから,欠落言語側のドメイン内文を抽出する言語間データ選択手法を提案する。
提案手法は,多言語BERT上の適応層を比較学習により学習し,ソースとターゲット言語間の表現を整合させる。
我々は,NMTにおける言語間データ選択手法を,3つの言語ペアで5つのドメインにまたがって評価した。
論文 参考訳(メタデータ) (2021-09-09T14:12:12Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。