論文の概要: The futility of STILTs for the classification of lexical borrowings in
Spanish
- arxiv url: http://arxiv.org/abs/2109.08607v1
- Date: Fri, 17 Sep 2021 15:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 17:19:10.793744
- Title: The futility of STILTs for the classification of lexical borrowings in
Spanish
- Title(参考訳): スペイン語の語彙借入分類におけるSTILTsの有用性
- Authors: Javier de la Rosa
- Abstract要約: STILTは、多言語モデルの直接微調整よりも改善していない。
少数の言語のサブセットでトレーニングされた多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The first edition of the IberLEF 2021 shared task on automatic detection of
borrowings (ADoBo) focused on detecting lexical borrowings that appeared in the
Spanish press and that have recently been imported into the Spanish language.
In this work, we tested supplementary training on intermediate labeled-data
tasks (STILTs) from part of speech (POS), named entity recognition (NER),
code-switching, and language identification approaches to the classification of
borrowings at the token level using existing pre-trained transformer-based
language models. Our extensive experimental results suggest that STILTs do not
provide any improvement over direct fine-tuning of multilingual models.
However, multilingual models trained on small subsets of languages perform
reasonably better than multilingual BERT but not as good as multilingual
RoBERTa for the given dataset.
- Abstract(参考訳): IberLEF 2021の第1版は、スペインの報道機関に出現し、最近スペイン語に輸入された語彙的借入を検出することに焦点を当てた借入の自動検出(ADoBo)タスクを共有した。
本研究では,既存の事前学習型トランスフォーマーベース言語モデルを用いて,中間ラベル付きデータタスク(STILT)を音声(POS)の一部,名前付きエンティティ認識(NER),コードスイッチング,およびトークンレベルでの借入の分類に対する言語識別アプローチから補修訓練を行った。
実験結果から,STILTは多言語モデルを直接微調整するよりも改良されていないことが示唆された。
しかし、少数の言語のサブセットで訓練された多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。
関連論文リスト
- Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。
また、スペイン語用のタスクを1つのリポジトリにまとめました。
我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文 参考訳(メタデータ) (2023-08-06T00:16:04Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。