論文の概要: UXLA: A Robust Unsupervised Data Augmentation Framework for
Zero-Resource Cross-Lingual NLP
- arxiv url: http://arxiv.org/abs/2004.13240v4
- Date: Sat, 26 Jun 2021 04:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:06:52.744634
- Title: UXLA: A Robust Unsupervised Data Augmentation Framework for
Zero-Resource Cross-Lingual NLP
- Title(参考訳): UXLA: ゼロソースクロスプラットフォームNLPのためのロバストな教師なしデータ拡張フレームワーク
- Authors: M Saiful Bari, Tasnim Mohiuddin, Shafiq Joty
- Abstract要約: 我々は、ゼロリソース転送学習シナリオのための新しい教師なしデータ拡張フレームワークであるUXLAを提案する。
特に、UXLAは、ソース言語タスク分布から未知のターゲット言語タスク分布への言語間適応問題を解決することを目的としている。
UXLAはデータ拡張と教師なしサンプル選択を同時に行う。
- 参考スコア(独自算出の注目度): 19.65783178853385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning has yielded state-of-the-art (SoTA) results in many
supervised NLP tasks. However, annotated data for every target task in every
target language is rare, especially for low-resource languages. We propose
UXLA, a novel unsupervised data augmentation framework for zero-resource
transfer learning scenarios. In particular, UXLA aims to solve cross-lingual
adaptation problems from a source language task distribution to an unknown
target language task distribution, assuming no training label in the target
language. At its core, UXLA performs simultaneous self-training with data
augmentation and unsupervised sample selection. To show its effectiveness, we
conduct extensive experiments on three diverse zero-resource cross-lingual
transfer tasks. UXLA achieves SoTA results in all the tasks, outperforming the
baselines by a good margin. With an in-depth framework dissection, we
demonstrate the cumulative contributions of different components to its
success.
- Abstract(参考訳): 伝達学習は、多くの教師付きNLPタスクの結果、最先端(SoTA)をもたらす。
しかし、特に低リソース言語では、ターゲット言語毎のタスク毎の注釈付きデータは稀である。
我々は、ゼロリソース転送学習シナリオのための新しい教師なしデータ拡張フレームワークであるUXLAを提案する。
特に、UXLAは、ソース言語タスク分布から未知のターゲット言語タスク分布への言語間適応問題を解決することを目的としており、ターゲット言語にトレーニングラベルがないことを前提としている。
UXLAはデータ拡張と教師なしサンプル選択を同時に行う。
その効果を示すため、3つの多様なゼロリソースクロスリンガルトランスファータスクを広範囲に実験した。
UXLAは、すべてのタスクでSoTAの結果を達成し、ベースラインを良好なマージンで上回る。
詳細なフレームワークの分離により、異なるコンポーネントの累積的な寄与を成功に導く。
関連論文リスト
- Boosting Zero-Shot Crosslingual Performance using LLM-Based Augmentations with Effective Data Selection [23.575482348558904]
大きな言語モデル(LLM)は、非常に熟練したテキストジェネレータである。
ゼロショットプロンプトによるタスク固有のデータ生成にこの機能を活用します。
感情分析や自然言語推論タスクにおいて,顕著なパフォーマンス向上が観察された。
論文 参考訳(メタデータ) (2024-07-15T10:00:22Z) - ZGUL: Zero-shot Generalization to Unseen Languages using Multi-source
Ensembling of Language Adapters [29.211715245603234]
我々は、言語アダプタ(LA)を用いて、NLPタスクにおけるゼロショット言語間移動の問題に取り組む。
トレーニング対象のLAはラベルのないデータを必要とするが、リソースの低い言語では簡単には利用できない。
ZGULを(1)ラベルのないデータか(2)ターゲット言語で使用可能な数ショットのトレーニング例のどちらかに拡張します。
論文 参考訳(メタデータ) (2023-10-25T06:22:29Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - ZmBART: An Unsupervised Cross-lingual Transfer Framework for Language
Generation [4.874780144224057]
自然言語生成のための言語間移動は、比較的研究が進められている。
NLGの4つのタスク(テキスト要約、質問生成、ニュース見出し生成、イントラクタ生成)と3つの構文的に多様な言語について検討する。
並列あるいは擬似並列/バックトランスレートデータを使用しない教師なし言語間言語生成フレームワーク(ZmBART)を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:08:01Z) - XeroAlign: Zero-Shot Cross-lingual Transformer Alignment [9.340611077939828]
XLM-Rなどのクロスリンガルプリトレーニングトランスのタスク固有アライメント法について紹介する。
XeroAlignは翻訳されたタスクデータを使用して、モデルが異なる言語の同様の文埋め込みを生成するよう促します。
XLM-RAのテキスト分類精度はラベル付きデータで訓練されたXLM-Rよりも優れており、言語間対数パラフレーズタスクにおける最先端のモデルと同等である。
論文 参考訳(メタデータ) (2021-05-06T07:10:00Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。