論文の概要: Building an Icelandic Entity Linking Corpus
- arxiv url: http://arxiv.org/abs/2206.05014v1
- Date: Fri, 10 Jun 2022 12:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 21:52:27.760623
- Title: Building an Icelandic Entity Linking Corpus
- Title(参考訳): アイスランドのエンティティリンクコーパスの構築
- Authors: Steinunn Rut Fri{\dh}riksd\'ottir, Valdimar \'Ag\'ust Eggertsson,
Benedikt Geir J\'ohannesson, Hjalti Dan\'ielsson, Hrafn Loftsson, Hafsteinn
Einarsson
- Abstract要約: 我々は,多言語エンティティリンクモデル(mGENRE)とウィキペディアAPI検索(WAPIS)を組み合わせることで,データのラベル付けを行うアプローチについて述べる。
WAPISのみを用いた場合の30.9%に比べ,この組み合わせはコーパスの53.9%に達することがわかった。
- 参考スコア(独自算出の注目度): 2.2835610890984164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present the first Entity Linking corpus for Icelandic. We
describe our approach of using a multilingual entity linking model (mGENRE) in
combination with Wikipedia API Search (WAPIS) to label our data and compare it
to an approach using WAPIS only. We find that our combined method reaches 53.9%
coverage on our corpus, compared to 30.9% using only WAPIS. We analyze our
results and explain the value of using a multilingual system when working with
Icelandic. Additionally, we analyze the data that remain unlabeled, identify
patterns and discuss why they may be more difficult to annotate.
- Abstract(参考訳): 本稿では,アイスランド語を対象とした最初のエンティティリンクコーパスを提案する。
我々は、ウィキペディアAPI検索(WAPIS)と組み合わせて、多言語エンティティリンクモデル(mGENRE)を用いてデータをラベル付けし、WAPISのみを用いたアプローチと比較するアプローチについて述べる。
WAPISのみを用いた場合の30.9%に比べ,この組み合わせはコーパスの53.9%に達することがわかった。
アイスランド語で作業する場合に多言語システムを使うことの価値を解析し,その価値を説明する。
さらに、ラベルのないままのデータを分析し、パターンを特定し、アノテーションがより難しい理由について議論する。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language
Models [0.0]
アイスランド語のためのいくつかの言語モデルをトレーニングし、IceBERTは様々なダウンストリームタスクで最先端のパフォーマンスを達成する。
我々は,アイスランドの上位レベルドメイン(TLD)をターゲットとして,高品質なテキストの集合体であるアイスランド・コモン・クローリング・コーパス(IC3)を新たに導入する。
ロー・ミディアム・リソース言語に対するNLPアプリケーションにおいて, クロールしたコーパスを適切に洗浄すれば, 最先端の処理結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-14T18:45:31Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - Syntactic Search by Example [44.69040040007045]
本稿では,依存グラフ上の構文パターンを用いて,言語的に注釈付けされた大規模コーパスを検索するシステムを提案する。
本稿では,下層の構文表現の詳細を知る必要のない軽量なクエリ言語を提案する。
探索は,効率的な言語グラフインデクシングと検索エンジンにより,対話的な速度で行われる。
論文 参考訳(メタデータ) (2020-06-04T16:59:01Z) - Cross-Lingual Adaptation Using Universal Dependencies [1.027974860479791]
複雑なNLPタスクのためのUD構文解析木を用いて訓練されたモデルは、非常に異なる言語を特徴付けることができることを示す。
UD解析木に基づいて,木カーネルを用いた複数のモデルを開発し,これらのモデルが英語データセットでトレーニングされた場合,他の言語のデータを正しく分類できることを示す。
論文 参考訳(メタデータ) (2020-03-24T13:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。