論文の概要: Prix-LM: Pretraining for Multilingual Knowledge Base Construction
- arxiv url: http://arxiv.org/abs/2110.08443v1
- Date: Sat, 16 Oct 2021 02:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:45:44.677587
- Title: Prix-LM: Pretraining for Multilingual Knowledge Base Construction
- Title(参考訳): Prix-LM:多言語知識ベース構築のための事前訓練
- Authors: Wenxuan Zhou, Fangyu Liu, Ivan Vuli\'c, Nigel Collier, Muhao Chen
- Abstract要約: 複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
- 参考スコア(独自算出の注目度): 59.02868906044296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge bases (KBs) contain plenty of structured world and commonsense
knowledge. As such, they often complement distributional text-based information
and facilitate various downstream tasks. Since their manual construction is
resource- and time-intensive, recent efforts have tried leveraging large
pretrained language models (PLMs) to generate additional monolingual knowledge
facts for KBs. However, such methods have not been attempted for building and
enriching multilingual KBs. Besides wider application, such multilingual KBs
can provide richer combined knowledge than monolingual (e.g., English) KBs.
Knowledge expressed in different languages may be complementary and unequally
distributed: this implies that the knowledge available in high-resource
languages can be transferred to low-resource ones. To achieve this, it is
crucial to represent multilingual knowledge in a shared/unified space. To this
end, we propose a unified framework, Prix-LM, for multilingual KB construction
and completion. We leverage two types of knowledge, monolingual triples and
cross-lingual links, extracted from existing multilingual KBs, and tune a
multilingual language encoder XLM-R via a causal language modeling objective.
Prix-LM integrates useful multilingual and KB-based factual knowledge into a
single model. Experiments on standard entity-related tasks, such as link
prediction in multiple languages, cross-lingual entity linking and bilingual
lexicon induction, demonstrate its effectiveness, with gains reported over
strong task-specialised baselines.
- Abstract(参考訳): 知識ベース(KB)には、多くの構造化された世界と常識的な知識が含まれている。
そのため、分散テキストベースの情報を補完し、様々な下流作業を容易にすることが多い。
彼らの手作業による構成はリソースと時間を要するため、最近の取り組みでは、kbs用の単言語知識ファクトを生成するために、大規模な事前学習言語モデル(plm)を活用している。
しかし、このような手法は多言語KBの構築と強化には試みられていない。
幅広い応用に加えて、このような多言語kbは単言語(例えば英語)kbよりも豊かな複合知識を提供できる。
異なる言語で表現された知識は相補的で、不均等に分散している可能性がある:これは、高リソース言語で利用可能な知識は低リソース言語に転送できることを意味する。
これを実現するためには、共有/統一空間における多言語知識の表現が不可欠である。
そこで本研究では,多言語KB構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語kbから抽出した単言語三重項とクロス言語リンクの2種類の知識を活用し,因果言語モデリング目標を用いて多言語言語エンコーダxlm-rをチューニングする。
Prix-LMは有用な多言語およびKBベースの事実知識を単一のモデルに統合する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導などの標準的なエンティティ関連タスクの実験は、その効果を実証し、タスク特化ベースラインの強みを報告した。
関連論文リスト
- BayLing 2: A Multilingual Large Language Model with Efficient Language Alignment [42.193395498828764]
本稿では,ハイソース言語から低ソース言語へ効率的に生成能力と知識を伝達するBayLing 2を紹介する。
100以上の言語にまたがる多言語翻訳では、BayLingは同様のスケールのオープンソースモデルよりも優れたパフォーマンスを示している。
BayLingのデモ、ホームページ、コード、モデルが利用可能だ。
論文 参考訳(メタデータ) (2024-11-25T11:35:08Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - Knowledge Based Multilingual Language Model [44.70205282863062]
知識に基づく多言語言語モデル(KMLM)を事前学習するための新しいフレームワークを提案する。
我々は、ウィキデータ知識グラフを用いて、大量のコード切替合成文と推論に基づく多言語学習データを生成する。
生成したデータの文内構造と文間構造に基づいて,知識学習を容易にするための事前学習タスクを設計する。
論文 参考訳(メタデータ) (2021-11-22T02:56:04Z) - A Multilingual Modeling Method for Span-Extraction Reading Comprehension [2.4905424368103444]
XLRCと呼ばれる多言語抽出読解手法を提案する。
我々のモデルはCMRC 2018タスクにおいて最先端のベースライン(RoBERTa_Large)よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-31T11:05:30Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。