論文の概要: Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification
- arxiv url: http://arxiv.org/abs/2007.15072v1
- Date: Wed, 29 Jul 2020 19:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 20:19:13.517148
- Title: Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification
- Title(参考訳): 言語横断テキスト分類のための自己学習におけるアドバイザリトレーニングの活用
- Authors: Xin Dong, Yaxin Zhu, Yupeng Zhang, Zuohui Fu, Dongkuan Xu, Sen Yang,
Gerard de Melo
- Abstract要約: 本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
- 参考スコア(独自算出の注目度): 52.69730591919885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cross-lingual text classification, one seeks to exploit labeled data from
one language to train a text classification model that can then be applied to a
completely different language. Recent multilingual representation models have
made it much easier to achieve this. Still, there may still be subtle
differences between languages that are neglected when doing so. To address
this, we present a semi-supervised adversarial training process that minimizes
the maximal loss for label-preserving input perturbations. The resulting model
then serves as a teacher to induce labels for unlabeled target language samples
that can be used during further adversarial training, allowing us to gradually
adapt our model to the target language. Compared with a number of strong
baselines, we observe significant gains in effectiveness on document and intent
classification for a diverse set of languages.
- Abstract(参考訳): クロスリンガルテキスト分類では、ある言語からのラベル付きデータを活用して、完全に異なる言語に適用可能なテキスト分類モデルをトレーニングしようとする。
最近の多言語表現モデルは、これを実現するのをずっと容易にした。
それでも、そうするときに無視される言語の間には、微妙な違いがあるかもしれない。
これに対処するために,ラベル保存入力摂動に対する最大損失を最小限に抑える,半教師付き逆訓練プロセスを提案する。
得られたモデルが教師として機能し、さらに敵対的な訓練に使用できるラベルのない対象言語サンプルのラベルを誘導し、段階的にターゲット言語に適応できるようにします。
様々な言語に対する文書分類や意図分類において, 高いベースラインを持つものと比較して, 有効性が著しく向上している。
関連論文リスト
- T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - Improving Zero-Shot Cross-Lingual Transfer Learning via Robust Training [45.48003947488825]
私達は2つの広く利用された強い訓練方法を研究します:反対の訓練およびランダム化された平滑化。
実験の結果,ロバストトレーニングにより,テキスト分類におけるゼロショット言語間転送が改善されることがわかった。
論文 参考訳(メタデータ) (2021-04-17T21:21:53Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank [46.626315158735615]
事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練されたデータの制限のため、すべての言語品種に等しく適用されない。
このことは、ラベル付き未ラベルデータがモノリンガルモデルを効果的に訓練するにはあまりに限られている、これらのモデルに馴染みのない言語多様体にとっての課題である。
本稿では,低リソース環境に多言語モデルを適用するために,言語固有の事前学習と語彙拡張の利用を提案する。
論文 参考訳(メタデータ) (2020-09-29T16:12:52Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。