論文の概要: Knowledge Based Multilingual Language Model
- arxiv url: http://arxiv.org/abs/2111.10962v1
- Date: Mon, 22 Nov 2021 02:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 14:14:22.758481
- Title: Knowledge Based Multilingual Language Model
- Title(参考訳): 知識に基づく多言語言語モデル
- Authors: Linlin Liu, Xin Li, Ruidan He, Lidong Bing, Shafiq Joty, Luo Si
- Abstract要約: 知識に基づく多言語言語モデル(KMLM)を事前学習するための新しいフレームワークを提案する。
我々は、ウィキデータ知識グラフを用いて、大量のコード切替合成文と推論に基づく多言語学習データを生成する。
生成したデータの文内構造と文間構造に基づいて,知識学習を容易にするための事前学習タスクを設計する。
- 参考スコア(独自算出の注目度): 44.70205282863062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge enriched language representation learning has shown promising
performance across various knowledge-intensive NLP tasks. However, existing
knowledge based language models are all trained with monolingual knowledge
graph data, which limits their application to more languages. In this work, we
present a novel framework to pretrain knowledge based multilingual language
models (KMLMs). We first generate a large amount of code-switched synthetic
sentences and reasoning-based multilingual training data using the Wikidata
knowledge graphs. Then based on the intra- and inter-sentence structures of the
generated data, we design pretraining tasks to facilitate knowledge learning,
which allows the language models to not only memorize the factual knowledge but
also learn useful logical patterns. Our pretrained KMLMs demonstrate
significant performance improvements on a wide range of knowledge-intensive
cross-lingual NLP tasks, including named entity recognition, factual knowledge
retrieval, relation classification, and a new task designed by us, namely,
logic reasoning. Our code and pretrained language models will be made publicly
available.
- Abstract(参考訳): 知識に富んだ言語表現学習は、様々な知識集約nlpタスクで有望なパフォーマンスを示している。
しかし、既存の知識に基づく言語モデルは、すべてモノリンガルな知識グラフデータで訓練されている。
本稿では,知識に基づく多言語言語モデル(kmlms)を事前学習するための新しい枠組みを提案する。
まず,ウィキデータナレッジグラフを用いて,大量のコード交換合成文と推論に基づく多言語学習データを生成する。
そして,生成されたデータの内・間関係構造に基づいて,事前学習タスクをデザインし,知識学習を容易にすることにより,言語モデルに事実知識を記憶させるだけでなく,有用な論理パターンを学習させる。
我々の事前学習したKMLMは、名前付きエンティティ認識、事実知識検索、関係分類、そして私たちによって設計された新しいタスク、すなわち論理推論を含む、幅広い知識集約型言語間NLPタスクにおいて、大幅な性能向上を示す。
私たちのコードと事前訓練された言語モデルは公開されます。
関連論文リスト
- Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Multilingual Transfer Learning for Code-Switched Language and Speech
Neural Modeling [12.497781134446898]
本稿では,言語非依存なマルチタスク学習手法を提案することにより,言語理論のデータ不足と限界に対処する。
まず,メタラーニングに基づくメタトランスファー学習を提案する。そこでは,高音源単言語音声データから,コードスイッチング領域への情報抽出を行う。
第2に,他の言語で学習した有用な知識を得ることにより,コードスイッチングデータを効果的に表現するための,多言語メタエム手法を提案する。
第3に,言語モデルへの伝達学習戦略として構文情報を統合するために,マルチタスク学習を導入する。
論文 参考訳(メタデータ) (2021-04-13T14:49:26Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - JAKET: Joint Pre-training of Knowledge Graph and Language Understanding [73.43768772121985]
本稿では,知識グラフと言語の両方をモデル化する新しい事前学習フレームワークであるJAKETを提案する。
知識モジュールと言語モジュールは相互に支援するための重要な情報を提供する。
我々の設計により、事前学習されたモデルは、新しいドメインの見知らぬ知識グラフに容易に適応できる。
論文 参考訳(メタデータ) (2020-10-02T05:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。