論文の概要: Design Challenges in Low-resource Cross-lingual Entity Linking
- arxiv url: http://arxiv.org/abs/2005.00692v2
- Date: Wed, 7 Oct 2020 06:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:25:55.692416
- Title: Design Challenges in Low-resource Cross-lingual Entity Linking
- Title(参考訳): 低リソース多言語エンティティリンクにおける設計課題
- Authors: Xingyu Fu, Weijia Shi, Xiaodong Yu, Zian Zhao, Dan Roth
- Abstract要約: 言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
- 参考スコア(独自算出の注目度): 56.18957576362098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual Entity Linking (XEL), the problem of grounding mentions of
entities in a foreign language text into an English knowledge base such as
Wikipedia, has seen a lot of research in recent years, with a range of
promising techniques. However, current techniques do not rise to the challenges
introduced by text in low-resource languages (LRL) and, surprisingly, fail to
generalize to text not taken from Wikipedia, on which they are usually trained.
This paper provides a thorough analysis of low-resource XEL techniques,
focusing on the key step of identifying candidate English Wikipedia titles that
correspond to a given foreign language mention. Our analysis indicates that
current methods are limited by their reliance on Wikipedia's interlanguage
links and thus suffer when the foreign language's Wikipedia is small. We
conclude that the LRL setting requires the use of outside-Wikipedia
cross-lingual resources and present a simple yet effective zero-shot XEL
system, QuEL, that utilizes search engines query logs. With experiments on 25
languages, QuEL~shows an average increase of 25\% in gold candidate recall and
of 13\% in end-to-end linking accuracy over state-of-the-art baselines.
- Abstract(参考訳): 言語間のエンティティリンク(XEL)は、外国語のテキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題であり、近年、様々な有望な技術で多くの研究が行われている。
しかし、現在の技術は、低リソース言語(LRL)におけるテキストによってもたらされる課題に起因せず、驚くほど、通常訓練されているウィキペディアから取らないテキストに一般化することができない。
本稿では,低リソースなXEL手法を徹底的に分析し,与えられた外国語の言及に対応する英語のウィキペディアのタイトルを識別する重要なステップに着目した。
分析の結果、現在の手法はウィキペディアの言語間リンクに依存するため、外国語のウィキペディアが小さい場合に苦しむことが判明した。
我々は、LRL設定には、Wikipediaの外部言語リソースの使用が必要であり、検索エンジンのクエリログを利用する単純なゼロショットXELシステムQuELを提示する。
25の言語での実験により、quel~は金候補リコールの平均で25\%、最先端のベースラインよりもエンドツーエンドのリンク精度が13\%上昇する。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - An Open Multilingual System for Scoring Readability of Wikipedia [3.992677070507323]
ウィキペディア記事の読みやすさを評価するための多言語モデルを開発した。
ウィキペディアから簡略化されたウィキペディアやオンラインの子供まで、14言語にまたがる新しい多言語データセットを作成します。
我々のモデルはゼロショットシナリオでよく機能し、14言語で80%以上のランキング精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T23:07:18Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - Crosslingual Topic Modeling with WikiPDA [15.198979978589476]
ウィキペディアベースのポリグロット・ディリクレ・アロケーション(WikiPDA)について紹介する。
あらゆる言語で書かれたウィキペディアの記事を、共通の言語に依存しないトピックの集合上の分布として表現することを学ぶ。
28のウィキペディア版における話題バイアスの研究と言語横断的分類の2つのアプリケーションでその実用性を示す。
論文 参考訳(メタデータ) (2020-09-23T15:19:27Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。