論文の概要: Realistic Zero-Shot Cross-Lingual Transfer in Legal Topic Classification
- arxiv url: http://arxiv.org/abs/2206.03785v1
- Date: Wed, 8 Jun 2022 10:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:59:27.493080
- Title: Realistic Zero-Shot Cross-Lingual Transfer in Legal Topic Classification
- Title(参考訳): 法的話題分類における実写的ゼロショットクロスリンガル転送
- Authors: Stratos Xenouleas, Alexia Tsoukara, Giannis Panagiotakis, Ilias
Chalkidis, Ion Androutsopoulos
- Abstract要約: 我々は,最近のMultiEURLEXデータセットを用いて,法的トピック分類におけるゼロショットの言語間移動を検討する。
元のデータセットには並列文書が含まれており、これはゼロショットの言語間転送には非現実的であるため、並列文書を使わずにデータセットの新バージョンを開発する。
翻訳に基づく手法は多言語事前学習モデルの言語間微調整を大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 21.44895570621707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider zero-shot cross-lingual transfer in legal topic classification
using the recent MultiEURLEX dataset. Since the original dataset contains
parallel documents, which is unrealistic for zero-shot cross-lingual transfer,
we develop a new version of the dataset without parallel documents. We use it
to show that translation-based methods vastly outperform cross-lingual
fine-tuning of multilingually pre-trained models, the best previous zero-shot
transfer method for MultiEURLEX. We also develop a bilingual teacher-student
zero-shot transfer approach, which exploits additional unlabeled documents of
the target language and performs better than a model fine-tuned directly on
labeled target language documents.
- Abstract(参考訳): 我々は,最近のMultiEURLEXデータセットを用いて,法的トピック分類におけるゼロショットの言語間移動を検討する。
元のデータセットは、ゼロショットの言語間転送には非現実的な並列文書を含むため、並列文書のない新しいバージョンのデータセットを開発する。
我々は,MultiEURLEXの過去のゼロショット転送手法である,多言語事前学習モデルの言語間微調整よりもはるかに優れていることを示す。
また,対象言語の無ラベル文書を活用し,ラベル付き対象言語文書上で直接微調整されたモデルよりも優れた性能を示す,バイリンガル教師のゼロショット転送手法を開発した。
関連論文リスト
- Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - DiTTO: A Feature Representation Imitation Approach for Improving
Cross-Lingual Transfer [15.062937537799005]
ゼロショット転送を改善するためのドメインとしての言語。
我々のアプローチであるDiTTOは、標準のゼロショット微調整法よりも大幅に優れていることを示す。
我々のモデルは、数ショット設定であっても、標準的な微調整法よりも言語間移動がより良くできる。
論文 参考訳(メタデータ) (2023-03-04T08:42:50Z) - Model and Data Transfer for Cross-Lingual Sequence Labelling in
Zero-Resource Settings [10.871587311621974]
我々は、ゼロショット設定に適用された高容量多言語言語モデルが、データベースのクロスランガルトランスファーアプローチより一貫して優れていることを実験的に実証した。
この結果の詳細な分析は、言語使用における重要な違いによる可能性があることを示唆している。
また,高容量多言語言語モデルが利用できない場合,データに基づく多言語間移動アプローチが競争力のある選択肢であることも示唆した。
論文 参考訳(メタデータ) (2022-10-23T05:37:35Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Multilingual Document-Level Translation Enables Zero-Shot Transfer From
Sentences to Documents [19.59133362105703]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。
本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
論文 参考訳(メタデータ) (2021-09-21T17:49:34Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。
本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。
その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-06-03T10:18:43Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual
Transfer with Multilingual Transformers [62.637055980148816]
言語モデリングの目的によって事前訓練された多言語トランスフォーマーは、NLPの事実上のデフォルト転送パラダイムとなっている。
膨大な多言語変換器による言語間変換は,リソースリーンシナリオや遠方言語では著しく効果が低いことを示す。
論文 参考訳(メタデータ) (2020-05-01T22:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。