論文の概要: Cross-Document Language Modeling
- arxiv url: http://arxiv.org/abs/2101.00406v1
- Date: Sat, 2 Jan 2021 09:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 10:51:01.090177
- Title: Cross-Document Language Modeling
- Title(参考訳): クロスドキュメント言語モデリング
- Authors: Avi Caciularu, Arman Cohan, Iz Beltagy, Matthew E. Peters, Arie
Cattan, Ido Dagan
- Abstract要約: クロスドキュメント言語モデル(CD-LM)はマルチドキュメントNLPタスクのマスキング言語モデリングを改善する。
私たちは、CD-LMが複数のテキストタスクの最新の結果を設定することを示しています。
- 参考スコア(独自算出の注目度): 28.34202232940097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new pretraining approach for language models that are geared
to support multi-document NLP tasks. Our cross-document language model (CD-LM)
improves masked language modeling for these tasks with two key ideas. First, we
pretrain with multiple related documents in a single input, via cross-document
masking, which encourages the model to learn cross-document and long-range
relationships. Second, extending the recent Longformer model, we pretrain with
long contexts of several thousand tokens and introduce a new attention pattern
that uses sequence-level global attention to predict masked tokens, while
retaining the familiar local attention elsewhere. We show that our CD-LM sets
new state-of-the-art results for several multi-text tasks, including
cross-document event and entity coreference resolution, paper citation
recommendation, and documents plagiarism detection, while using a significantly
reduced number of training parameters relative to prior works.
- Abstract(参考訳): マルチドキュメントNLPタスクをサポートする言語モデルに対して,新たな事前学習手法を提案する。
我々のクロスドキュメント言語モデル (CD-LM) は2つの重要なアイデアでこれらのタスクのマスキング言語モデリングを改善する。
まず、複数の関連文書を1つの入力で事前トレーニングし、クロスドキュメントマスキングにより、クロスドキュメントと長距離関係の学習を促す。
第二に、最近のLongformerモデルを拡張して、何千ものトークンの長いコンテキストで事前訓練を行い、シーケンシャルなグローバルな注意を用いてマスク付きトークンを予測する新しい注意パターンを導入します。
本研究のCD-LMは,クロスドキュメントイベントやエンティティコア参照解決,論文引用推薦,文書盗作検出など,複数のマルチテキストタスクに対して,従来よりも格段に少ないトレーニングパラメータを用いて,新たな最先端結果を設定する。
関連論文リスト
- Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - DOCmT5: Document-Level Pretraining of Multilingual Language Models [9.072507490639218]
DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。
本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。
DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2021-12-16T08:58:52Z) - PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document
Summarization [16.830963601598242]
要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。
具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。
私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルよりも大きなマージンでパフォーマンスします。
論文 参考訳(メタデータ) (2021-10-16T07:22:24Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。