論文の概要: Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining
- arxiv url: http://arxiv.org/abs/2210.04782v1
- Date: Mon, 10 Oct 2022 15:40:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:12:51.348189
- Title: Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining
- Title(参考訳): ロバストコントラスト事前学習による実世界の騒音に対する多言語モデルのロバスト化
- Authors: Asa Cooper Stickland, Sailik Sengupta, Jason Krone, Saab Mansour, He
He
- Abstract要約: ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
- 参考スコア(独自算出の注目度): 14.087882550564169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in neural modeling have achieved state-of-the-art (SOTA) results on
public natural language processing (NLP) benchmarks, at times surpassing human
performance. However, there is a gap between public benchmarks and real-world
applications where noise such as typos or grammatical mistakes is abundant,
resulting in degraded performance. Unfortunately, works that assess the
robustness of neural models on noisy data and suggest improvements are limited
to the English language. Upon analyzing noise in different languages, we
observe that noise types vary across languages and thus require their own
investigation. Thus, to benchmark the performance of pretrained multilingual
models, we construct noisy datasets covering five languages and four NLP tasks.
We see a gap in performance between clean and noisy data. After investigating
ways to boost the zero-shot cross-lingual robustness of multilingual pretrained
models, we propose Robust Contrastive Pretraining (RCP). RCP combines data
augmentation with a contrastive loss term at the pretraining stage and achieves
large improvements on noisy (& original test data) across two sentence-level
classification (+3.2%) and two sequence-labeling (+10 F1-score) multilingual
tasks.
- Abstract(参考訳): ニューラルモデリングの進歩は、パブリック自然言語処理(NLP)ベンチマークにおける最先端(SOTA)の結果を達成している。
しかし、公開ベンチマークと実際のアプリケーションの間には、タイプミスや文法上のミスなどのノイズが豊富にあるため、パフォーマンスが低下する、というギャップがある。
残念ながら、ノイズデータに対する神経モデルのロバスト性を評価し、改善を示唆する研究は英語に限定されている。
異なる言語でノイズを分析すると、ノイズの種類は言語によって異なるため、独自の調査が必要となる。
したがって,事前学習された多言語モデルの性能をベンチマークするために,5つの言語と4つのnlpタスクをカバーする騒がしいデータセットを構築する。
クリーンデータとノイズデータのパフォーマンスのギャップが見られます。
多言語プレトレーニングモデルのゼロショットクロスリンガルロバスト性を向上させる方法について検討した後,ロバストコントラストプレトレーニング(rcp)を提案する。
RCPは、事前訓練段階でデータ拡張と対照的な損失項を結合し、2つの文レベルの分類(+3.2%)と2つのシーケンスラベル(+10 F1スコア)の多言語タスクでノイズ(および元のテストデータ)を大幅に改善する。
関連論文リスト
- A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Understanding Model Robustness to User-generated Noisy Texts [2.958690090551675]
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
論文 参考訳(メタデータ) (2021-10-14T14:54:52Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。