論文の概要: Cross-Lingual Text Classification with Minimal Resources by Transferring
a Sparse Teacher
- arxiv url: http://arxiv.org/abs/2010.02562v1
- Date: Tue, 6 Oct 2020 09:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:48:01.782803
- Title: Cross-Lingual Text Classification with Minimal Resources by Transferring
a Sparse Teacher
- Title(参考訳): スパース教師の転用による最小資源による言語間テキスト分類
- Authors: Giannis Karamanolakis, Daniel Hsu, Luis Gravano
- Abstract要約: CLTSは、最小限の言語資源を用いて、対象言語における「弱」監視を生成する。
CLTSはシンプルで、18の多様な言語で驚くほど効果的です。
- 参考スコア(独自算出の注目度): 8.362098382773265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual text classification alleviates the need for manually labeled
documents in a target language by leveraging labeled documents from other
languages. Existing approaches for transferring supervision across languages
require expensive cross-lingual resources, such as parallel corpora, while less
expensive cross-lingual representation learning approaches train classifiers
without target labeled documents. In this work, we propose a cross-lingual
teacher-student method, CLTS, that generates "weak" supervision in the target
language using minimal cross-lingual resources, in the form of a small number
of word translations. Given a limited translation budget, CLTS extracts and
transfers only the most important task-specific seed words across languages and
initializes a teacher classifier based on the translated seed words. Then, CLTS
iteratively trains a more powerful student that also exploits the context of
the seed words in unlabeled target documents and outperforms the teacher. CLTS
is simple and surprisingly effective in 18 diverse languages: by transferring
just 20 seed words, even a bag-of-words logistic regression student outperforms
state-of-the-art cross-lingual methods (e.g., based on multilingual BERT).
Moreover, CLTS can accommodate any type of student classifier: leveraging a
monolingual BERT student leads to further improvements and outperforms even
more expensive approaches by up to 12% in accuracy. Finally, CLTS addresses
emerging tasks in low-resource languages using just a small number of word
translations.
- Abstract(参考訳): 言語間テキスト分類は、他の言語からのラベル付き文書を活用することにより、ターゲット言語で手動でラベル付けされた文書の必要性を軽減する。
既存の言語間の監督の移行には並列コーパスのような高価な言語間リソースが必要であり、より安価な言語間表現学習はラベル付きドキュメントを使わずに分類器を訓練する。
そこで本研究では,少数の単語翻訳の形で,最小の言語間資源を用いて,対象言語において「弱く」監督を行う言語間教師・教師間指導手法であるcltsを提案する。
翻訳予算が限られているため、CLTSは言語間で最も重要なタスク固有のシード語のみを抽出し、翻訳されたシード語に基づいて教師分類器を初期化する。
そして、CLTSは、未ラベルのターゲット文書のシード語の文脈を利用して、より強力な学生を反復訓練し、教師より優れています。
cltsは18の多様な言語でシンプルで驚くほど効果的である: たった20の種単語を転送することで、手持ちのロジスティック回帰学生でさえ、最先端のクロスリンガルメソッド(例えば多言語bertに基づく)よりも優れている。
さらに、CLTSは任意の種類の学生分類器に対応できる: 単言語的なBERTの学生を利用することで、さらに改善され、12%の精度でさらに高価なアプローチを上回ります。
最後に、CLTSは少数の単語翻訳を使用して、低リソース言語における新しいタスクに対処する。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Measuring Catastrophic Forgetting in Cross-Lingual Transfer Paradigms: Exploring Tuning Strategies [4.118037156777793]
言語間移動は、少ないリソースの言語でタスクを解くための有望なテクニックである。
大規模言語モデルに対する2つの微調整アプローチとゼロショットおよびフルショット学習アプローチを比較した。
論文 参考訳(メタデータ) (2023-09-12T09:37:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。