論文の概要: Knowledge Based Multilingual Language Model
- arxiv url: http://arxiv.org/abs/2111.10962v1
- Date: Mon, 22 Nov 2021 02:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 14:14:22.758481
- Title: Knowledge Based Multilingual Language Model
- Title(参考訳): 知識に基づく多言語言語モデル
- Authors: Linlin Liu, Xin Li, Ruidan He, Lidong Bing, Shafiq Joty, Luo Si
- Abstract要約: 知識に基づく多言語言語モデル(KMLM)を事前学習するための新しいフレームワークを提案する。
我々は、ウィキデータ知識グラフを用いて、大量のコード切替合成文と推論に基づく多言語学習データを生成する。
生成したデータの文内構造と文間構造に基づいて,知識学習を容易にするための事前学習タスクを設計する。
- 参考スコア(独自算出の注目度): 44.70205282863062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge enriched language representation learning has shown promising
performance across various knowledge-intensive NLP tasks. However, existing
knowledge based language models are all trained with monolingual knowledge
graph data, which limits their application to more languages. In this work, we
present a novel framework to pretrain knowledge based multilingual language
models (KMLMs). We first generate a large amount of code-switched synthetic
sentences and reasoning-based multilingual training data using the Wikidata
knowledge graphs. Then based on the intra- and inter-sentence structures of the
generated data, we design pretraining tasks to facilitate knowledge learning,
which allows the language models to not only memorize the factual knowledge but
also learn useful logical patterns. Our pretrained KMLMs demonstrate
significant performance improvements on a wide range of knowledge-intensive
cross-lingual NLP tasks, including named entity recognition, factual knowledge
retrieval, relation classification, and a new task designed by us, namely,
logic reasoning. Our code and pretrained language models will be made publicly
available.
- Abstract(参考訳): 知識に富んだ言語表現学習は、様々な知識集約nlpタスクで有望なパフォーマンスを示している。
しかし、既存の知識に基づく言語モデルは、すべてモノリンガルな知識グラフデータで訓練されている。
本稿では,知識に基づく多言語言語モデル(kmlms)を事前学習するための新しい枠組みを提案する。
まず,ウィキデータナレッジグラフを用いて,大量のコード交換合成文と推論に基づく多言語学習データを生成する。
そして,生成されたデータの内・間関係構造に基づいて,事前学習タスクをデザインし,知識学習を容易にすることにより,言語モデルに事実知識を記憶させるだけでなく,有用な論理パターンを学習させる。
我々の事前学習したKMLMは、名前付きエンティティ認識、事実知識検索、関係分類、そして私たちによって設計された新しいタスク、すなわち論理推論を含む、幅広い知識集約型言語間NLPタスクにおいて、大幅な性能向上を示す。
私たちのコードと事前訓練された言語モデルは公開されます。
関連論文リスト
- Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters [3.7273829129985305]
本稿では,言語から多言語大モデル(LLM)へのグラフ知識の統合について検討する。
我々は、感情分析(SA)および名前付きエンティティ認識(NER)における低リソース言語(LRL)の性能向上のために、言語固有のアダプタを使用している。
構造化グラフ知識が,SA および NER における LRL の多言語 LLM の性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-07-01T15:56:24Z) - TRELM: Towards Robust and Efficient Pre-training for Knowledge-Enhanced Language Models [31.209774088374374]
本稿では,知識強化言語モデルのためのロバストかつ効率的な事前学習フレームワークであるTRELMを紹介する。
我々は、知識を3倍に注入するための堅牢なアプローチと、価値ある情報を取得するための知識強化されたメモリバンクを採用しています。
我々は,TRELMが事前学習時間を少なくとも50%削減し,知識探索タスクや複数の知識認識言語理解タスクにおいて,他のKEPLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-17T13:04:35Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - JAKET: Joint Pre-training of Knowledge Graph and Language Understanding [73.43768772121985]
本稿では,知識グラフと言語の両方をモデル化する新しい事前学習フレームワークであるJAKETを提案する。
知識モジュールと言語モジュールは相互に支援するための重要な情報を提供する。
我々の設計により、事前学習されたモデルは、新しいドメインの見知らぬ知識グラフに容易に適応できる。
論文 参考訳(メタデータ) (2020-10-02T05:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。