論文の概要: Design Challenges in Low-resource Cross-lingual Entity Linking
- arxiv url: http://arxiv.org/abs/2005.00692v2
- Date: Wed, 7 Oct 2020 06:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:25:55.692416
- Title: Design Challenges in Low-resource Cross-lingual Entity Linking
- Title(参考訳): 低リソース多言語エンティティリンクにおける設計課題
- Authors: Xingyu Fu, Weijia Shi, Xiaodong Yu, Zian Zhao, Dan Roth
- Abstract要約: 言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
- 参考スコア(独自算出の注目度): 56.18957576362098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual Entity Linking (XEL), the problem of grounding mentions of
entities in a foreign language text into an English knowledge base such as
Wikipedia, has seen a lot of research in recent years, with a range of
promising techniques. However, current techniques do not rise to the challenges
introduced by text in low-resource languages (LRL) and, surprisingly, fail to
generalize to text not taken from Wikipedia, on which they are usually trained.
This paper provides a thorough analysis of low-resource XEL techniques,
focusing on the key step of identifying candidate English Wikipedia titles that
correspond to a given foreign language mention. Our analysis indicates that
current methods are limited by their reliance on Wikipedia's interlanguage
links and thus suffer when the foreign language's Wikipedia is small. We
conclude that the LRL setting requires the use of outside-Wikipedia
cross-lingual resources and present a simple yet effective zero-shot XEL
system, QuEL, that utilizes search engines query logs. With experiments on 25
languages, QuEL~shows an average increase of 25\% in gold candidate recall and
of 13\% in end-to-end linking accuracy over state-of-the-art baselines.
- Abstract(参考訳): 言語間のエンティティリンク(XEL)は、外国語のテキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題であり、近年、様々な有望な技術で多くの研究が行われている。
しかし、現在の技術は、低リソース言語(LRL)におけるテキストによってもたらされる課題に起因せず、驚くほど、通常訓練されているウィキペディアから取らないテキストに一般化することができない。
本稿では,低リソースなXEL手法を徹底的に分析し,与えられた外国語の言及に対応する英語のウィキペディアのタイトルを識別する重要なステップに着目した。
分析の結果、現在の手法はウィキペディアの言語間リンクに依存するため、外国語のウィキペディアが小さい場合に苦しむことが判明した。
我々は、LRL設定には、Wikipediaの外部言語リソースの使用が必要であり、検索エンジンのクエリログを利用する単純なゼロショットXELシステムQuELを提示する。
25の言語での実験により、quel~は金候補リコールの平均で25\%、最先端のベースラインよりもエンドツーエンドのリンク精度が13\%上昇する。
関連論文リスト
- XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - Massively Multilingual Language Models for Cross Lingual Fact Extraction
from Low Resource Indian Languages [9.005666503814307]
クロスリンガル情報抽出は、低資源のインド語テキストから英語のトリプルの形で事実情報を抽出することを目的としている。
我々は,F1総合スコア77.46のエンドツーエンド生成アプローチを考案した。
論文 参考訳(メタデータ) (2023-02-09T17:29:56Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - Crosslingual Topic Modeling with WikiPDA [15.198979978589476]
ウィキペディアベースのポリグロット・ディリクレ・アロケーション(WikiPDA)について紹介する。
あらゆる言語で書かれたウィキペディアの記事を、共通の言語に依存しないトピックの集合上の分布として表現することを学ぶ。
28のウィキペディア版における話題バイアスの研究と言語横断的分類の2つのアプリケーションでその実用性を示す。
論文 参考訳(メタデータ) (2020-09-23T15:19:27Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。