論文の概要: DOCmT5: Document-Level Pretraining of Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2112.08709v1
- Date: Thu, 16 Dec 2021 08:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:57:53.069170
- Title: DOCmT5: Document-Level Pretraining of Multilingual Language Models
- Title(参考訳): DOCmT5:多言語言語モデルの文書レベル事前学習
- Authors: Chia-Hsuan Lee, Aditya Siddhant, Viresh Ratnakar, Melvin Johnson
- Abstract要約: DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。
本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。
DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
- 参考スコア(独自算出の注目度): 9.072507490639218
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce DOCmT5, a multilingual sequence-to-sequence
language model pre-trained with large scale parallel documents. While previous
approaches have focused on leveraging sentence-level parallel data, we try to
build a general-purpose pre-trained model that can understand and generate long
documents. We propose a simple and effective pre-training objective - Document
Reordering Machine Translation (DrMT), in which the input documents that are
shuffled and masked need to be translated. DrMT brings consistent improvements
over strong baselines on a variety of document-level generation tasks,
including over 12 BLEU points for seen-language-pair document-level MT, over 7
BLEU points for unseen-language-pair document-level MT and over 3 ROUGE-1
points for seen-language-pair cross-lingual summarization. We achieve
state-of-the-art (SOTA) on WMT20 De-En and IWSLT15 Zh-En document translation
tasks. We also conduct extensive analysis on various factors for document
pre-training, including (1) the effects of pre-training data quality and (2)
The effects of combining mono-lingual and cross-lingual pre-training. We plan
to make our model checkpoints publicly available.
- Abstract(参考訳): 本稿では,大規模並列文書を事前学習した多言語系列間言語モデルであるdocmt5について述べる。
従来のアプローチは文レベルの並列データを活用することに重点を置いてきたが、私たちは長い文書を理解して生成できる汎用事前学習モデルを構築しようとしている。
本稿では,シャッフルやマスクを施した入力文書を翻訳する必要がある簡易かつ効果的な事前学習目標である文書再注文機械翻訳(drmt)を提案する。
DrMTは、様々な文書レベルのタスクに対して強力なベースラインよりも一貫した改善をもたらし、例えば、可読言語ペアの文書レベルMTのBLEUポイント以上、可読言語ペアの文書レベルMTのBLEUポイント7以上、可読言語ペアの言語間要約のROUGE-1ポイント3以上である。
wmt20 de-en と iwslt15 zh-en の文書変換タスクで最先端の sota (state-of-the-art) を実現する。
また,(1)前訓練データ品質の影響,(2)単言語間前訓練とクロスリンガル前訓練の併用効果など,文書前訓練の諸因子について広範な分析を行った。
モデルチェックポイントを一般公開する予定です。
関連論文リスト
- In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - A General-Purpose Multilingual Document Encoder [9.868221447090855]
階層トランスモデル(HMDE)として多言語文書エンコーダを事前訓練する。
トレーニングデータを作成するために、ウィキペディアを同等のドキュメントのソースとして利用しています。
言語間文書レベルのタスクにおいて,HMDEの有効性について検討した。
論文 参考訳(メタデータ) (2023-05-11T17:55:45Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Multilingual Document-Level Translation Enables Zero-Shot Transfer From
Sentences to Documents [19.59133362105703]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。
本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
論文 参考訳(メタデータ) (2021-09-21T17:49:34Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。