論文の概要: Mapping Transformer Leveraged Embeddings for Cross-Lingual Document
Representation
- arxiv url: http://arxiv.org/abs/2401.06583v1
- Date: Fri, 12 Jan 2024 14:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:35:32.788984
- Title: Mapping Transformer Leveraged Embeddings for Cross-Lingual Document
Representation
- Title(参考訳): 言語間文書表現のための変換器レバレッジ埋め込み
- Authors: Tsegaye Misikir Tashu, Eduard-Raul Kontos, Matthia Sabatelli, Matias
Valdenegro-Toro
- Abstract要約: 本研究では,Transformer Leveraged Document Representations (TLDR) を用いた言語間の文書表現に焦点を当てた。
20言語対にわたる3つのマッピング手法を用いて4つの多言語事前学習型トランスフォーマーモデルの評価を行った。
- 参考スコア(独自算出の注目度): 8.397730500554047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommendation systems, for documents, have become tools to find relevant
content on the Web. However, these systems have limitations when it comes to
recommending documents in languages different from the query language, which
means they might overlook resources in non-native languages. This research
focuses on representing documents across languages by using Transformer
Leveraged Document Representations (TLDRs) that are mapped to a cross-lingual
domain. Four multilingual pre-trained transformer models (mBERT, mT5 XLM
RoBERTa, ErnieM) were evaluated using three mapping methods across 20 language
pairs representing combinations of five selected languages of the European
Union. Metrics like Mate Retrieval Rate and Reciprocal Rank were used to
measure the effectiveness of mapped TLDRs compared to non-mapped ones. The
results highlight the power of cross-lingual representations achieved through
pre-trained transformers and mapping approaches suggesting a promising
direction for expanding beyond language connections, between two specific
languages.
- Abstract(参考訳): ドキュメントのレコメンデーションシステムは、Web上で関連コンテンツを見つけるためのツールになっている。
しかし、これらのシステムはクエリ言語とは異なる言語でのドキュメントの推奨に関して制限があるため、非ネイティブ言語のリソースを見落としてしまう可能性がある。
本研究では,言語横断ドメインにマッピングされたTransformer Leveraged Document Representations (TLDR)を用いて,言語間の文書表現に焦点を当てた。
MBERT, mT5 XLM RoBERTa, ErnieMの4つの多言語事前学習変圧器モデルについて, 欧州連合の5つの言語の組み合わせを表す20言語対の3つのマッピング手法を用いて評価した。
被写体検索率や相互ランクなどの指標を用いてマッピングされたtldrの有効性を測定した。
その結果、事前訓練されたトランスフォーマーとマッピングアプローチによって達成される言語間表現のパワーを強調し、二つの特定の言語間の言語接続を超えて拡張するための有望な方向性を提案する。
関連論文リスト
- A General-Purpose Multilingual Document Encoder [9.868221447090855]
階層トランスモデル(HMDE)として多言語文書エンコーダを事前訓練する。
トレーニングデータを作成するために、ウィキペディアを同等のドキュメントのソースとして利用しています。
言語間文書レベルのタスクにおいて,HMDEの有効性について検討した。
論文 参考訳(メタデータ) (2023-05-11T17:55:45Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。