論文の概要: Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced
Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2010.12688v2
- Date: Sat, 13 Mar 2021 18:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:02:47.836062
- Title: Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced
Language Model Pre-training
- Title(参考訳): 知識グラフに基づく言語モデル事前学習のための合成コーパス生成
- Authors: Oshin Agarwal, Heming Ge, Siamak Shakeri, Rami Al-Rfou
- Abstract要約: 我々は全英Wikidata KGを言語化した。
Wikidataのような包括的で百科事典的なKGを言語化することで、構造化されたKGと自然言語コーパスを統合することができることを示す。
- 参考スコア(独自算出の注目度): 22.534866015730664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work on Data-To-Text Generation, the task of converting knowledge graph
(KG) triples into natural text, focused on domain-specific benchmark datasets.
In this paper, however, we verbalize the entire English Wikidata KG, and
discuss the unique challenges associated with a broad, open-domain, large-scale
verbalization. We further show that verbalizing a comprehensive, encyclopedic
KG like Wikidata can be used to integrate structured KGs and natural language
corpora. In contrast to the many architectures that have been developed to
integrate these two sources, our approach converts the KG into natural text,
allowing it to be seamlessly integrated into existing language models. It
carries the further advantages of improved factual accuracy and reduced
toxicity in the resulting language model. We evaluate this approach by
augmenting the retrieval corpus in a retrieval language model and showing
significant improvements on the knowledge intensive tasks of open domain QA and
the LAMA knowledge probe.
- Abstract(参考訳): 知識グラフ(KG)を自然テキストに変換するタスクであるData-To-Text Generationは、ドメイン固有のベンチマークデータセットに焦点を当てている。
しかし,本稿では,全英Wikidata KGを言語化し,広義のオープンドメイン,大規模言語化に関わるユニークな課題について論じる。
さらに、Wikidataのような包括的で百科事典的なKGを言語化することで、構造化されたKGと自然言語コーパスを統合することができることを示す。
これら2つのソースを統合するために開発された多くのアーキテクチャとは対照的に、我々のアプローチはKGを自然なテキストに変換し、既存の言語モデルにシームレスに統合する。
これは、結果の言語モデルにおいて、事実精度の改善と毒性の低減というさらなる利点をもたらす。
本研究では,検索言語モデルにおける検索コーパスの強化と,オープンドメインQAとLAMA知識プローブの知識集約タスクの大幅な改善を図った。
関連論文リスト
- BanglaAutoKG: Automatic Bangla Knowledge Graph Construction with Semantic Neural Graph Filtering [6.05977559550463]
知識グラフ(KG)は情報処理や推論アプリケーションに必須であることが証明されている。
世界中で広く使用されているにもかかわらず、Banglaは包括的なデータセットが不足しているため、KGでは比較的不足している。
バングラテキストからベンガルKGを自動構築できる先駆的フレームワークであるBanglaAutoKGを提案する。
論文 参考訳(メタデータ) (2024-04-04T15:31:21Z) - Knowledge Graph-Augmented Language Models for Knowledge-Grounded
Dialogue Generation [58.65698688443091]
我々は、知識グラフ(KGs)を用いた文脈関連および知識基底対話を生成するためのフレームワークであるSUbgraph Retrieval-augmented GEneration (SURGE)を提案する。
我々のフレームワークはまずKGから関連するサブグラフを取得し、その後、検索したサブグラフによって条件付けられた単語の埋め込みを摂動することで、事実間の一貫性を強制する。
我々は,OpendialKGとKOMODISデータセットのSURGEフレームワークを検証し,KGの知識を忠実に反映した高品質な対話を生成することを示す。
論文 参考訳(メタデータ) (2023-05-30T08:36:45Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - WDV: A Broad Data Verbalisation Dataset Built from Wikidata [5.161088104035106]
言語知識グラフ(英語: Verbalising Knowledge Graph, KG)は、主語、述語、および対象からなる相互接続された三元的クレームをテキストに変換することに焦点を当てたデータである。
ウィキデータから構築された大規模なKGクレーム言語化データセットであるWDVを提案する。
また,人間中心の流速と精度を計測する再利用可能なワークフローを通じて,発話の質を評価する。
論文 参考訳(メタデータ) (2022-05-05T13:10:12Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - Few-shot Knowledge Graph-to-Text Generation with Pretrained Language
Models [42.38563175680914]
本稿では,知識グラフ(KG)の事実を記述した自然言語テキストの自動生成方法について検討する。
数ショットの設定を考えると、言語理解と生成において事前学習された言語モデル(PLM)の優れた能力を利用する。
論文 参考訳(メタデータ) (2021-06-03T06:48:00Z) - JAKET: Joint Pre-training of Knowledge Graph and Language Understanding [73.43768772121985]
本稿では,知識グラフと言語の両方をモデル化する新しい事前学習フレームワークであるJAKETを提案する。
知識モジュールと言語モジュールは相互に支援するための重要な情報を提供する。
我々の設計により、事前学習されたモデルは、新しいドメインの見知らぬ知識グラフに容易に適応できる。
論文 参考訳(メタデータ) (2020-10-02T05:53:36Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。