論文の概要: UNER: Universal Named-Entity RecognitionFramework
- arxiv url: http://arxiv.org/abs/2010.12406v1
- Date: Fri, 23 Oct 2020 13:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:34:12.188570
- Title: UNER: Universal Named-Entity RecognitionFramework
- Title(参考訳): UNER:Universal Named-Entity RecognitionFramework
- Authors: Diego Alves, Tin Kuculo, Gabriel Amaral, Gaurish Thakkar, and Marko
Tadic
- Abstract要約: 私たちは、最初の多言語UNERコーパス(SETimesparallelコーパス)を作成します。
英語のSETimescorpusは、既存のツールと知識ベースを使って注釈付けされる。
結果として得られるアノテーションは、SE-Timesコーパス内の他の言語に自動的に伝達される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Universal Named-Entity Recognition (UNER)framework, a
4-level classification hierarchy, and the methodology that isbeing adopted to
create the first multilingual UNER corpus: the SETimesparallel corpus annotated
for named-entities. First, the English SETimescorpus will be annotated using
existing tools and knowledge bases. Afterevaluating the resulting annotations
through crowdsourcing campaigns,they will be propagated automatically to other
languages within the SE-Times corpora. Finally, as an extrinsic evaluation, the
UNER multilin-gual dataset will be used to train and test available NER tools.
As part offuture research directions, we aim to increase the number of
languages inthe UNER corpus and to investigate possible ways of integrating
UNERwith available knowledge graphs to improve named-entity recognition.
- Abstract(参考訳): 本報告では,Universal Named-Entity Recognition (UNER) フレームワーク,4レベル分類階層,および最初の多言語UNERコーパス(SETimesparallel corpus)の作成に採用されている方法論を紹介する。
まず、英語のSETimescorpusは既存のツールと知識ベースを使って注釈付けされる。
クラウドソーシングによるアノテーションの評価の後、se-times corpora内の他の言語に自動的に伝播する。
最後に、外部評価として、UNER Multilin-gualデータセットを使用して、利用可能なNERツールをトレーニングおよびテストする。
今後の研究の方向性として、UNERコーパスの言語数を増やし、UNERを利用可能な知識グラフと統合して名前付き認識を改善する可能性を検討することを目的とする。
関連論文リスト
- Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark [39.01204607174688]
オープンなコミュニティ主導プロジェクトであるUniversal NER(UNER)を紹介し,多くの言語でゴールドスタンダードなNERベンチマークを開発する。
UNER v1には、12の異なる言語にまたがる言語間一貫性のあるスキーマで、名前付きエンティティで注釈付けされた18のデータセットが含まれている。
論文 参考訳(メタデータ) (2023-11-15T17:09:54Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - From Retrieval to Generation: Efficient and Effective Entity Set Expansion [23.535181796796678]
Entity Set Expansion(ESE)は、シードエンティティによって記述されるターゲットセマンティッククラスのエンティティを拡張することを目的とした重要なタスクである。
既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。
本稿では, 生成事前学習型自動回帰言語モデルを用いて, ESEタスクを実現するGenExpan(Generative Entity Set Expansion)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-07T08:09:50Z) - DualNER: A Dual-Teaching framework for Zero-shot Cross-lingual Named
Entity Recognition [27.245171237640502]
DualNERは、注釈付きソース言語コーパスとラベルなしターゲット言語テキストの両方をフル活用するためのフレームワークである。
NERの2つの相補的な学習パラダイム、すなわちシーケンスラベリングとスパン予測を統合マルチタスクフレームワークに統合する。
論文 参考訳(メタデータ) (2022-11-15T12:50:59Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - DaN+: Danish Nested Named Entities and Lexical Normalization [18.755176247223616]
本稿では,デンマークのネスト付き名前付きエンティティ(NE)と語彙正規化のための,新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介する。
我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。
以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。
論文 参考訳(メタデータ) (2021-05-24T14:35:21Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。