論文の概要: Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking
- arxiv url: http://arxiv.org/abs/2003.01343v1
- Date: Tue, 3 Mar 2020 05:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:44:10.665903
- Title: Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking
- Title(参考訳): 低リソースクロスランガルエンティティリンクのための候補生成の改善
- Authors: Shuyan Zhou and Shruti Rijhwani and John Wieting and Jaime Carbonell
and Graham Neubig
- Abstract要約: XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
- 参考スコア(独自算出の注目度): 81.41804263432684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual entity linking (XEL) is the task of finding referents in a
target-language knowledge base (KB) for mentions extracted from source-language
texts. The first step of (X)EL is candidate generation, which retrieves a list
of plausible candidate entities from the target-language KB for each mention.
Approaches based on resources from Wikipedia have proven successful in the
realm of relatively high-resource languages (HRL), but these do not extend well
to low-resource languages (LRL) with few, if any, Wikipedia pages. Recently,
transfer learning methods have been shown to reduce the demand for resources in
the LRL by utilizing resources in closely-related languages, but the
performance still lags far behind their high-resource counterparts. In this
paper, we first assess the problems faced by current entity candidate
generation methods for low-resource XEL, then propose three improvements that
(1) reduce the disconnect between entity mentions and KB entries, and (2)
improve the robustness of the model to low-resource scenarios. The methods are
simple, but effective: we experiment with our approach on seven XEL datasets
and find that they yield an average gain of 16.9% in Top-30 gold candidate
recall, compared to state-of-the-art baselines. Our improved model also yields
an average gain of 7.9% in in-KB accuracy of end-to-end XEL.
- Abstract(参考訳): XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
X)EL の最初のステップは候補生成であり、各言及毎にターゲット言語KB から有望な候補エンティティのリストを取得する。
Wikipediaのリソースに基づくアプローチは、比較的高リソース言語(HRL)の領域で成功裏に証明されているが、これらは低リソース言語(LRL)にはあまり及ばず、ウィキペディアのページはほとんどない。
近年, 転送学習手法は, 近縁言語における資源の活用によってLRLの資源需要を減少させることが示されているが, その性能は, 高リソース言語よりもはるかに遅れている。
本稿では、まず、低リソースxelにおける現在のエンティティ候補生成手法が直面する問題を評価し、(1)エンティティ参照とkbエントリの切り離しを削減し、(2)低リソースシナリオに対するモデルの堅牢性を改善するための3つの改善を提案する。
提案手法は単純だが有効である。我々は7つのXELデータセットを用いて我々のアプローチを実験し、Top-30金候補リコールの平均利得が16.9%であることを発見した。
改良モデルでは,エンド・ツー・エンドXELのKB内精度が平均7.9%向上した。
関連論文リスト
- UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages [2.66269503676104]
大規模言語モデル(LLM)は低リソース言語での性能が低い。
低リソース言語のためのテキストデータを効率的に収集する手法を提案する。
我々のアプローチであるUnifiedCrawlは、最小限の計算リソースを使用して共通のクローをフィルタし、抽出する。
論文 参考訳(メタデータ) (2024-11-21T17:41:08Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Low Resource Summarization using Pre-trained Language Models [1.26404863283601]
そこで本稿では,低リソースの要約に自己注意型トランスフォーマーベースアーキテクチャモデル(mBERT,mT5)を適用する手法を提案する。
適応的な要約モデル textiturT5 は、高リソース言語英語の最先端モデルに匹敵する評価スコア(最大46.35 ROUGE-1,77 BERTScore)で、低リソース言語の文脈情報を効果的にキャプチャすることができる。
論文 参考訳(メタデータ) (2023-10-04T13:09:39Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - MetaXLR -- Mixed Language Meta Representation Transformation for
Low-resource Cross-lingual Learning based on Multi-Armed Bandit [0.0]
データ駆動方式で選択した複数のソース言語を利用する拡張アプローチを提案する。
我々は,同じ量のデータを使用しながら,非常に低リソース言語に対するNERタスクにおける技術結果の状態を達成した。
論文 参考訳(メタデータ) (2023-05-31T18:22:33Z) - Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。
知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。
本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文 参考訳(メタデータ) (2022-06-30T09:49:53Z) - Isomorphic Cross-lingual Embeddings for Low-Resource Languages [1.5076964620370268]
CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2022-03-28T10:39:07Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。