論文の概要: Investigating Multilingual Coreference Resolution by Universal
Annotations
- arxiv url: http://arxiv.org/abs/2310.17734v1
- Date: Thu, 26 Oct 2023 18:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:44:55.367635
- Title: Investigating Multilingual Coreference Resolution by Universal
Annotations
- Title(参考訳): ユニバーサルアノテーションによる多言語照合解決の検討
- Authors: Haixia Chai and Michael Strube
- Abstract要約: 本研究では,言語レベルでの真理データを調べることによって,コア推論について検討する。
我々は、SotAシステムが解決できない最も困難なケースのエラー解析を行う。
普遍的な形態素的アノテーションから特徴を抽出し,これらの特徴をベースラインシステムに統合し,その潜在的な利点を評価する。
- 参考スコア(独自算出の注目度): 11.035051211351213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilingual coreference resolution (MCR) has been a long-standing and
challenging task. With the newly proposed multilingual coreference dataset,
CorefUD (Nedoluzhko et al., 2022), we conduct an investigation into the task by
using its harmonized universal morphosyntactic and coreference annotations.
First, we study coreference by examining the ground truth data at different
linguistic levels, namely mention, entity and document levels, and across
different genres, to gain insights into the characteristics of coreference
across multiple languages. Second, we perform an error analysis of the most
challenging cases that the SotA system fails to resolve in the CRAC 2022 shared
task using the universal annotations. Last, based on this analysis, we extract
features from universal morphosyntactic annotations and integrate these
features into a baseline system to assess their potential benefits for the MCR
task. Our results show that our best configuration of features improves the
baseline by 0.9% F1 score.
- Abstract(参考訳): MCR(Multilingual coreference resolution)は長年にわたる課題である。
新たに提案された多言語共参照データセットcorefud(nedoluzhko et al., 2022)を用いて,その調和したユニバーサルモルフォシンタクティクスと共参照アノテーションを用いてタスクの検討を行う。
まず,複数言語間のコリファレンスの特徴に関する洞察を得るために,参照,エンティティ,ドキュメントレベル,ジャンルの異なる言語レベルでの根拠真理データを調べ,コリファレンスについて検討する。
第2に,共通アノテーションを用いたCRAC 2022共有タスクにおいて,SotAシステムが解決に失敗する最も困難なケースのエラー解析を行う。
最後に,本解析に基づいて,ユニバーサルモルフォシンタティックアノテーションから特徴を抽出し,それらの機能をベースラインシステムに統合することで,mcrタスクの潜在的メリットを評価する。
以上の結果から,機能設定がベースラインを0.9%向上することがわかった。
関連論文リスト
- Exploring Multiple Strategies to Improve Multilingual Coreference Resolution in CorefUD [0.0]
本稿では,エンド・ツー・エンドのニューラル・コアス・リゾリューションシステムについて述べる。
まず、モノリンガルとクロスリンガルのバリエーションを含む強力なベースラインモデルを構築します。
多様な言語文脈における性能向上のためのいくつかの拡張を提案する。
論文 参考訳(メタデータ) (2024-08-29T20:27:05Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Entity Linking in 100 Languages [3.2099113524828513]
言語固有の言及を言語に依存しない知識ベースに分解する多言語エンティティリンクの新しい定式化を提案する。
この新たな設定でデュアルエンコーダをトレーニングし、機能表現の改善、負のマイニング、補助的なエンティティペアリングタスクによる事前作業に基づいて構築する。
このモデルは、より限定的な言語間リンクタスクにより、最先端の結果より優れています。
論文 参考訳(メタデータ) (2020-11-05T07:28:35Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。