論文の概要: TRIP: Triangular Document-level Pre-training for Multilingual Language
Models
- arxiv url: http://arxiv.org/abs/2212.07752v1
- Date: Thu, 15 Dec 2022 12:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-16 16:43:26.462428
- Title: TRIP: Triangular Document-level Pre-training for Multilingual Language
Models
- Title(参考訳): TRIP:多言語言語モデルのための三角形文書レベルの事前学習
- Authors: Hongyuan Lu, Haoyang Huang, Shuming Ma, Dongdong Zhang, Wai Lam, Furu
Wei
- Abstract要約: TRIPは、従来のモノリンガルおよびバイリンガル事前学習をトリリンガル設定に拡張した最初の分野である。
TRIPは3つの多言語文書レベルの機械翻訳ベンチマークにおいて最大3.65d-BLEU点と6.2ROUGE-L点をもたらすことを示す。
詳細な分析は、TRIPが文書レベルの機械翻訳を改善し、より良い文書コンテキストをキャプチャすることを示している。
- 参考スコア(独自算出の注目度): 107.83158521848372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the current success of multilingual pre-training, most prior works
focus on leveraging monolingual data or bilingual parallel data and overlooked
the value of trilingual parallel data. This paper presents \textbf{Tri}angular
Document-level \textbf{P}re-training (\textbf{TRIP}), which is the first in the
field to extend the conventional monolingual and bilingual pre-training to a
trilingual setting by (i) \textbf{Grafting} the same documents in two languages
into one mixed document, and (ii) predicting the remaining one language as the
reference translation. Our experiments on document-level MT and cross-lingual
abstractive summarization show that TRIP brings by up to 3.65 d-BLEU points and
6.2 ROUGE-L points on three multilingual document-level machine translation
benchmarks and one cross-lingual abstractive summarization benchmark, including
multiple strong state-of-the-art (SOTA) scores. In-depth analysis indicates
that TRIP improves document-level machine translation and captures better
document contexts in at least three characteristics: (i) tense consistency,
(ii) noun consistency and (iii) conjunction presence.
- Abstract(参考訳): 現在の多言語事前学習の成功にもかかわらず、ほとんどの先行研究は単言語データや二言語並列データを活用することに重点を置いており、三言語並列データの価値を見落としていた。
本稿では,従来の単言語およびバイリンガルのプリトレーニングを三言語環境に拡張した最初の分野である,文書レベル \textbf{p}re-training (\textbf{trip}) を提案する。
(i) \textbf{grafting} 2つの言語で同じ文書を1つの混合文書にまとめ、
(ii) 残りの1つの言語を参考翻訳として予測する。
文書レベルMTとクロスランガル抽象要約の実験により、TRIPは最大3.65 d-BLEU点と6.2 ROUGE-L点を3つの多言語文書レベル機械翻訳ベンチマークと1つの言語間抽象要約ベンチマークで得ることを示した。
詳細な分析によると、TRIPは文書レベルの機械翻訳を改善し、少なくとも3つの特性でより良い文書コンテキストをキャプチャする。
(i)緊張性,緊張性.
(ii)名詞の整合性と
(iii)結合の存在。
関連論文リスト
- T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Multilingual Pre-training with Language and Task Adaptation for
Multilingual Text Style Transfer [14.799109368073548]
事前学習したSeq2seqモデルmBARTを多言語テキストスタイルの転送に活用する。
機械翻訳データとゴールドアライメントの英語文を使えば、最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-03-16T11:27:48Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。