論文の概要: Give your Text Representation Models some Love: the Case for Basque
- arxiv url: http://arxiv.org/abs/2004.00033v2
- Date: Thu, 2 Apr 2020 11:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:56:48.641619
- Title: Give your Text Representation Models some Love: the Case for Basque
- Title(参考訳): テキスト表現モデルに愛を与える:バスクを例に
- Authors: Rodrigo Agerri, I\~naki San Vicente, Jon Ander Campos, Ander Barrena,
Xabier Saralegi, Aitor Soroa, Eneko Agirre
- Abstract要約: 単語の埋め込みと事前訓練された言語モデルは、テキストのリッチな表現を構築することができる。
多くの小規模企業や研究グループは、サードパーティによって事前訓練され利用可能になったモデルを使用する傾向にある。
これは、多くの言語において、モデルはより小さい(またはより低い)コーパスで訓練されているため、亜最適である。
より大規模なバスク語コーパスを用いて学習したモノリンガルモデルでは、下流のNLPタスクで利用可能なバージョンよりもはるかに優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 24.76979832867631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings and pre-trained language models allow to build rich
representations of text and have enabled improvements across most NLP tasks.
Unfortunately they are very expensive to train, and many small companies and
research groups tend to use models that have been pre-trained and made
available by third parties, rather than building their own. This is suboptimal
as, for many languages, the models have been trained on smaller (or lower
quality) corpora. In addition, monolingual pre-trained models for non-English
languages are not always available. At best, models for those languages are
included in multilingual versions, where each language shares the quota of
substrings and parameters with the rest of the languages. This is particularly
true for smaller languages such as Basque. In this paper we show that a number
of monolingual models (FastText word embeddings, FLAIR and BERT language
models) trained with larger Basque corpora produce much better results than
publicly available versions in downstream NLP tasks, including topic
classification, sentiment classification, PoS tagging and NER. This work sets a
new state-of-the-art in those tasks for Basque. All benchmarks and models used
in this work are publicly available.
- Abstract(参考訳): 単語埋め込みと事前訓練された言語モデルにより、テキストのリッチな表現が構築でき、ほとんどのNLPタスクで改善が可能になった。
残念なことに、トレーニングは非常に高価であり、多くの小さな企業や研究グループは、自分たちで作るのではなく、事前にトレーニングされ、第三者が利用できるモデルを使う傾向がある。
多くの言語では、モデルがより小さい(または低い品質)コーパスでトレーニングされているため、これは最適ではない。
加えて、英語以外の言語に対する単言語で事前訓練されたモデルは、必ずしも利用できない。
せいぜい、これらの言語のモデルは多言語バージョンに含まれており、各言語はサブストリングとパラメータのクォータを他の言語と共有している。
これは特にバスク語のような小さな言語に当てはまる。
本稿では,大規模なバスク語コーパスを用いて学習したモノリンガルモデル(FastText語埋め込み,FLAIR,BERT言語モデル)が,トピック分類,感情分類,PoSタグ付け,NERなど,下流NLPタスクの公開バージョンよりもはるかに優れた結果をもたらすことを示す。
この作業はバスク語のこれらのタスクに新しい最先端を設定する。
この作業で使用されるすべてのベンチマークとモデルが公開されている。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - WECHSEL: Effective initialization of subword embeddings for
cross-lingual transfer of monolingual language models [3.6878069324996616]
WECHSELと呼ばれる手法を導入し、新しい言語に英語モデルを転送する。
We use WECHSEL to transfer GPT-2 and RoBERTa models to four other languages。
論文 参考訳(メタデータ) (2021-12-13T12:26:02Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Making Monolingual Sentence Embeddings Multilingual using Knowledge
Distillation [73.65237422910738]
既存の文埋め込みモデルを新しい言語に拡張する,簡単かつ効率的な手法を提案する。
これにより、以前のモノリンガルモデルから多言語バージョンを作成することができる。
論文 参考訳(メタデータ) (2020-04-21T08:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。