論文の概要: Aligning the Norwegian UD Treebank with Entity and Coreference
Information
- arxiv url: http://arxiv.org/abs/2305.13527v2
- Date: Thu, 25 May 2023 22:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:23:53.518491
- Title: Aligning the Norwegian UD Treebank with Entity and Coreference
Information
- Title(参考訳): エンティティと参照情報によるノルウェーのUDツリーバンクの調整
- Authors: Tollef Emil J{\o}rgensen and Andre K{\aa}sen
- Abstract要約: 本稿では,ノルウェーの2つの書体であるボクマールとニノルスクについて,ユニバーサル依存(UD)ツリーバンクを基盤としたエンティティとコアのアノテートデータの統合について述べる。
調整および変換されたコーパスはノルウェー名称エンティティ(NorNE)とノルウェーアナフォラ解決コーパス(NARC)である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a merged collection of entity and coreference annotated
data grounded in the Universal Dependencies (UD) treebanks for the two written
forms of Norwegian: Bokm{\aa}l and Nynorsk. The aligned and converted corpora
are the Norwegian Named Entities (NorNE) and Norwegian Anaphora Resolution
Corpus (NARC). While NorNE is aligned with an older version of the treebank,
NARC is misaligned and requires extensive transformation from the original
annotations to the UD structure and CoNLL-U format. We here demonstrate the
conversion and alignment processes, along with an analysis of discovered issues
and errors in the data - some of which include data split overlaps in the
original treebank. These procedures and the developed system may prove helpful
for future corpus alignment and coreference annotation endeavors. The merged
corpora comprise the first Norwegian UD treebank enriched with named entities
and coreference information.
- Abstract(参考訳): 本稿では,ノルウェーの2つの書式である bokm{\aa}l と nynorsk に対して,共通依存関係 (ud) ツリーバンクを基盤としたエンティティとコリファレンスアノテートデータの統合について述べる。
調整および変換されたコーパスはノルウェー名称エンティティ(NorNE)とノルウェーアナフォラ解決コーパス(NARC)である。
NorNEはツリーバンクの古いバージョンと一致しているが、NARCは不一致であり、元のアノテーションからUD構造やCoNLL-Uフォーマットへの広範な変換を必要とする。
ここでは、変換とアライメントのプロセスと、データ内の発見された問題とエラーの分析をデモします。
これらの手順と開発システムは、将来のコーパスアライメントとコア参照アノテーションの取り組みに役立つかもしれない。
合併したコーパスは、名前付きエンティティとコア参照情報を備えた最初のノルウェーのUDツリーバンクで構成されている。
関連論文リスト
- Structured Dialogue Discourse Parsing [79.37200787463917]
談話解析は、多人数会話の内部構造を明らかにすることを目的としている。
本稿では,符号化と復号化という2つの観点から,従来の作業を改善する原理的手法を提案する。
実験の結果,本手法は,STACでは2.3,Mollweniでは1.5,先行モデルでは2.3を上回った。
論文 参考訳(メタデータ) (2023-06-26T22:51:01Z) - Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting
an Under-Resourced Language [0.0]
ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。
NArabizi Treebankの豊富なバージョンを紹介します。
論文 参考訳(メタデータ) (2023-06-26T17:27:31Z) - Constructing Code-mixed Universal Dependency Forest for Unbiased
Cross-lingual Relation Extraction [92.84968716013783]
言語間関係抽出(XRE)は,共通依存(UD)リソースから言語に一貫性のある構造的特徴を積極的に活用する。
コード混合型UDフォレストの構築により,非バイアス型UDベースXREトランスファーについて検討する。
このような森林特性により、トレーニングと予測フェーズ間のUDベースのXREのギャップを効果的に閉じることができる。
論文 参考訳(メタデータ) (2023-05-20T18:24:06Z) - NorBench -- A Benchmark for Norwegian Language Models [7.395163289937936]
NorBench: 標準化されたデータ分割と評価メトリクスに基づいてノルウェー語モデル(LM)を評価するためのNLPタスクとプローブのスイート。
ノルウェー語モデル(エンコーダとエンコーダ-デコーダの両方をベースとした)も導入する。
我々は、NorBenchの異なるベンチマークテストと比較して、それらのパフォーマンスと既存のLMを比較し、分析する。
論文 参考訳(メタデータ) (2023-05-06T00:20:24Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - NorDiaChange: Diachronic Semantic Change Dataset for Norwegian [63.65426535861836]
NorDiaChangeはノルウェーにおける最初のダイアクロニックなセマンティックチェンジデータセットである。
ノルウェーの約80の名詞が、時間とともに格付けされた意味変化で注釈付けされている。
論文 参考訳(メタデータ) (2022-01-13T18:27:33Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z) - e-SNLI-VE: Corrected Visual-Textual Entailment with Natural Language
Explanations [87.71914254873857]
SNLI-VEのエラー率が最も高いクラスを補正するためのデータ収集手法を提案する。
第3に,人間による自然言語の説明をSNLI-VEに追加するe-SNLI-VEを紹介する。
トレーニング時にこれらの説明から学習するモデルをトレーニングし、テスト時にそのような説明を出力します。
論文 参考訳(メタデータ) (2020-04-07T23:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。