論文の概要: Contextualized Representations Using Textual Encyclopedic Knowledge
- arxiv url: http://arxiv.org/abs/2004.12006v2
- Date: Tue, 13 Jul 2021 05:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 03:43:08.950678
- Title: Contextualized Representations Using Textual Encyclopedic Knowledge
- Title(参考訳): テキスト百科事典知識を用いた文脈表現
- Authors: Mandar Joshi, Kenton Lee, Yi Luan, Kristina Toutanova
- Abstract要約: 背景知識をテキストから統合することは,事実推論に焦点をあてたタスクに有効であることを示す。
TriviaQAでは,RoBERTaモデルに比較して1.6から3.1F1の改善が得られた。
- 参考スコア(独自算出の注目度): 23.49437524363581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to represent input texts by contextualizing them jointly
with dynamically retrieved textual encyclopedic background knowledge from
multiple documents. We apply our method to reading comprehension tasks by
encoding questions and passages together with background sentences about the
entities they mention. We show that integrating background knowledge from text
is effective for tasks focusing on factual reasoning and allows direct reuse of
powerful pretrained BERT-style encoders. Moreover, knowledge integration can be
further improved with suitable pretraining via a self-supervised masked
language model objective over words in background-augmented input text. On
TriviaQA, our approach obtains improvements of 1.6 to 3.1 F1 over comparable
RoBERTa models which do not integrate background knowledge dynamically. On
MRQA, a large collection of diverse QA datasets, we see consistent gains
in-domain along with large improvements out-of-domain on BioASQ (2.1 to 4.2
F1), TextbookQA (1.6 to 2.0 F1), and DuoRC (1.1 to 2.0 F1).
- Abstract(参考訳): 複数の文書から動的に検索したテキスト百科事典の背景知識と共用して入力テキストを表現する手法を提案する。
提案手法は,質問文と文節を,それらが言及する実体に関する背景文とともに符号化することで,理解タスクの読み上げに適用する。
テキストからの背景知識の統合は,事実推論に焦点をあてたタスクに有効であり,強力な事前学習型BERTエンコーダの直接再利用を可能にすることを示す。
さらに,背景強調入力テキスト中の単語に対する自己教師付きマスク付き言語モデルによる事前学習により,知識統合をさらに改善することができる。
TriviaQAでは,背景知識を動的に統合しないRoBERTaモデルに対して1.6から3.1F1の改善が得られた。
多様なQAデータセットの大規模なコレクションであるMRQAでは、BioASQ (2.1から4.2 F1)、TextbookQA (1.6から2.0 F1)、DuoRC (1.1から2.0 F1)のドメイン外での大きな改善とともに、ドメイン内での一貫した増加が見られる。
関連論文リスト
- Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding [9.2433070542025]
大規模言語モデル(LLM)は、テキスト生成時に入力コンテキストを不適切に統合する傾向がある。
本稿では, 逆無関係なパスを負のサンプルとして, コントラストデコーディングを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T20:38:41Z) - KETM:A Knowledge-Enhanced Text Matching method [0.0]
知識強化テキストマッチングモデル(KETM)と呼ばれるテキストマッチングの新しいモデルを提案する。
テキストワード定義を外部知識として検索するために、Wiktionaryを使用します。
我々は、ゲーティング機構を用いてテキストと知識を融合させ、テキストと知識融合の比率を学習する。
論文 参考訳(メタデータ) (2023-08-11T17:08:14Z) - TegTok: Augmenting Text Generation via Task-specific and Open-world
Knowledge [83.55215993730326]
本稿では,タスク固有およびオープンワールド知識(TegTok)によるTExt生成の統一化を提案する。
本モデルでは,2種類の知識ソースからの知識エントリを高密度検索により選択し,それぞれ入力エンコーディングと出力デコーディングの段階に注入する。
論文 参考訳(メタデータ) (2022-03-16T10:37:59Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced
Language Model Pre-training [22.534866015730664]
我々は全英Wikidata KGを言語化した。
Wikidataのような包括的で百科事典的なKGを言語化することで、構造化されたKGと自然言語コーパスを統合することができることを示す。
論文 参考訳(メタデータ) (2020-10-23T22:14:50Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Hierarchical Multi Task Learning with Subword Contextual Embeddings for
Languages with Rich Morphology [5.5217350574838875]
自然言語処理(NLP)における多くのシーケンスラベリングタスクにおける形態情報の重要性
本研究では, 単語文脈埋め込みを用いて, 豊富な形態素を持つ言語に対する形態情報を取得することを提案する。
我々のモデルは、トルコ語の両方のタスクにおける過去の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-25T22:55:56Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。