論文の概要: LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models
- arxiv url: http://arxiv.org/abs/2106.03379v1
- Date: Mon, 7 Jun 2021 07:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 10:32:33.511829
- Title: LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models
- Title(参考訳): LAWDR:事前学習モデルによる言語に依存しない重み付き文書表現
- Authors: Hongyu Gong, Vishrav Chaudhary, Yuqing Tang, Francisco Guzm\'an
- Abstract要約: 言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
- 参考スコア(独自算出の注目度): 8.745407715423992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual document representations enable language understanding in
multilingual contexts and allow transfer learning from high-resource to
low-resource languages at the document level. Recently large pre-trained
language models such as BERT, XLM and XLM-RoBERTa have achieved great success
when fine-tuned on sentence-level downstream tasks. It is tempting to apply
these cross-lingual models to document representation learning. However, there
are two challenges: (1) these models impose high costs on long document
processing and thus many of them have strict length limit; (2) model
fine-tuning requires extra data and computational resources, which is not
practical in resource-limited settings. In this work, we address these
challenges by proposing unsupervised Language-Agnostic Weighted Document
Representations (LAWDR). We study the geometry of pre-trained sentence
embeddings and leverage it to derive document representations without
fine-tuning. Evaluated on cross-lingual document alignment, LAWDR demonstrates
comparable performance to state-of-the-art models on benchmark datasets.
- Abstract(参考訳): 言語間文書表現は、多言語文脈における言語理解を可能にし、文書レベルで高リソース言語から低リソース言語へのトランスファー学習を可能にする。
近年,BERT,XLM,XLM-RoBERTaといった大規模事前学習型言語モデルは,文レベルの下流タスクを微調整することで大きな成功を収めている。
これらの言語横断モデルを文書表現学習に適用する誘惑がある。
しかし、2つの課題がある:(1)これらのモデルが長い文書処理に高コストを課すため、その多くは厳密な長さ制限がある;(2)モデル微調整には余分なデータと計算資源が必要であり、リソース制限の設定では実用的ではない。
本稿では,教師なし言語非依存の重み付き文書表現(lawdr)を提案することで,これらの課題を解決する。
事前学習された文埋め込みの幾何学を研究し,それを微調整せずに文書表現を導出する。
言語間の文書アライメントを評価することで、LAWDRはベンチマークデータセットの最先端モデルに匹敵するパフォーマンスを示す。
関連論文リスト
- Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model [1.3812010983144798]
本稿では,中国語の分節化を伴わずに多数の注釈のない法律文書を活用でき,大規模言語モデルを微調整できることを示す。
また、法的文書草案作成作業も達成でき、同時に情報プライバシーの保護と情報セキュリティ問題の改善も達成できる。
論文 参考訳(メタデータ) (2024-06-06T16:00:20Z) - One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support [18.810320088441678]
この研究は、法域に対する新しいNLPベンチマークを導入している。
エンフロング文書(最大50Kトークン)の処理、エンフドメイン固有の知識(法的テキストに具体化されている)、エンフマルチリンガル理解(5つの言語をカバーしている)の5つの重要な側面においてLCMに挑戦する。
我々のベンチマークにはスイスの法体系からの多様なデータセットが含まれており、基礎となる非英語、本質的には多言語法体系を包括的に研究することができる。
論文 参考訳(メタデータ) (2023-06-15T16:19:15Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - DOCmT5: Document-Level Pretraining of Multilingual Language Models [9.072507490639218]
DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。
本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。
DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2021-12-16T08:58:52Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。