論文の概要: A General-Purpose Multilingual Document Encoder
- arxiv url: http://arxiv.org/abs/2305.07016v1
- Date: Thu, 11 May 2023 17:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 13:35:15.412801
- Title: A General-Purpose Multilingual Document Encoder
- Title(参考訳): 汎用多言語文書エンコーダ
- Authors: Onur Galo\u{g}lu and Robert Litschko and Goran Glava\v{s}
- Abstract要約: 階層トランスモデル(HMDE)として多言語文書エンコーダを事前訓練する。
トレーニングデータを作成するために、ウィキペディアを同等のドキュメントのソースとして利用しています。
言語間文書レベルのタスクにおいて,HMDEの有効性について検討した。
- 参考スコア(独自算出の注目度): 9.868221447090855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Massively multilingual pretrained transformers (MMTs) have tremendously
pushed the state of the art on multilingual NLP and cross-lingual transfer of
NLP models in particular. While a large body of work leveraged MMTs to mine
parallel data and induce bilingual document embeddings, much less effort has
been devoted to training general-purpose (massively) multilingual document
encoder that can be used for both supervised and unsupervised document-level
tasks. In this work, we pretrain a massively multilingual document encoder as a
hierarchical transformer model (HMDE) in which a shallow document transformer
contextualizes sentence representations produced by a state-of-the-art
pretrained multilingual sentence encoder. We leverage Wikipedia as a readily
available source of comparable documents for creating training data, and train
HMDE by means of a cross-lingual contrastive objective, further exploiting the
category hierarchy of Wikipedia for creation of difficult negatives. We
evaluate the effectiveness of HMDE in two arguably most common and prominent
cross-lingual document-level tasks: (1) cross-lingual transfer for topical
document classification and (2) cross-lingual document retrieval. HMDE is
significantly more effective than (i) aggregations of segment-based
representations and (ii) multilingual Longformer. Crucially, owing to its
massively multilingual lower transformer, HMDE successfully generalizes to
languages unseen in document-level pretraining. We publicly release our code
and models at
https://github.com/ogaloglu/pre-training-multilingual-document-encoders .
- Abstract(参考訳): 多言語前訓練トランスフォーマー(mmts)は、多言語間nlpおよび特にnlpモデルの言語間移動に関する技術を大きく推進している。
大量の作業がMMTを利用して並列データをマイニングし、バイリンガル文書の埋め込みを誘導する一方で、教師なしと教師なしの両方の文書レベルのタスクに使用できる汎用(大規模)多言語文書エンコーダの訓練に費やされている労力ははるかに少ない。
本研究では,多言語文書エンコーダを階層型トランスフォーマーモデル (HMDE) として事前訓練し, 浅層文書トランスフォーマーが最先端の事前訓練された多言語文エンコーダによって生成された文表現を文脈化する。
学習データ作成のための比較資料のソースとしてwikipediaを活用し,言語間比較目的を用いてhmdeを訓練し,難解な否定文作成のためにwikipediaのカテゴリ階層を活用した。
1) 話題文書分類のための言語間転送と, (2) 言語間文書検索の2つのタスクにおいて, hmdeの有効性を評価した。
HMDEは、はるかに効果的である
(i)セグメントに基づく表現の集約と
(ii)多言語長者。
極めて多言語性の低いトランスフォーマーにより、hmdeは文書レベルの事前学習において認識されていない言語への一般化に成功している。
コードとモデルはhttps://github.com/ogaloglu/pre-training-multilingual-document-encodersで公開しています。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - DOCmT5: Document-Level Pretraining of Multilingual Language Models [9.072507490639218]
DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。
本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。
DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2021-12-16T08:58:52Z) - Multilingual Document-Level Translation Enables Zero-Shot Transfer From
Sentences to Documents [19.59133362105703]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。
本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
論文 参考訳(メタデータ) (2021-09-21T17:49:34Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。
我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。
実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2021-02-20T03:37:23Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer [136.09386219006123]
我々は、任意のタスクや言語への高いポータビリティとパラメータ効率の移行を可能にするアダプタベースのフレームワークであるMAD-Xを提案する。
MAD-Xは、名前付きエンティティ認識と因果コモンセンス推論に基づいて、タイプボロジーに多様性のある言語群を横断する言語間移動において、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-04-30T18:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。