論文の概要: What the [MASK]? Making Sense of Language-Specific BERT Models
- arxiv url: http://arxiv.org/abs/2003.02912v1
- Date: Thu, 5 Mar 2020 20:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:09:40.697170
- Title: What the [MASK]? Making Sense of Language-Specific BERT Models
- Title(参考訳): 何の[MASK]?
言語特有のBERTモデルの作成
- Authors: Debora Nozza, Federico Bianchi, Dirk Hovy
- Abstract要約: 本稿では,言語固有のBERTモデルにおける技術の現状について述べる。
本研究の目的は,言語固有のBERTモデルとmBERTモデルとの共通点と相違点について概説することである。
- 参考スコア(独自算出の注目度): 39.54532211263058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Natural Language Processing (NLP) has witnessed an impressive
progress in many areas, due to the advent of novel, pretrained contextual
representation models. In particular, Devlin et al. (2019) proposed a model,
called BERT (Bidirectional Encoder Representations from Transformers), which
enables researchers to obtain state-of-the art performance on numerous NLP
tasks by fine-tuning the representations on their data set and task, without
the need for developing and training highly-specific architectures. The authors
also released multilingual BERT (mBERT), a model trained on a corpus of 104
languages, which can serve as a universal language model. This model obtained
impressive results on a zero-shot cross-lingual natural inference task. Driven
by the potential of BERT models, the NLP community has started to investigate
and generate an abundant number of BERT models that are trained on a particular
language, and tested on a specific data domain and task. This allows us to
evaluate the true potential of mBERT as a universal language model, by
comparing it to the performance of these more specific models. This paper
presents the current state of the art in language-specific BERT models,
providing an overall picture with respect to different dimensions (i.e.
architectures, data domains, and tasks). Our aim is to provide an immediate and
straightforward overview of the commonalities and differences between
Language-Specific (language-specific) BERT models and mBERT. We also provide an
interactive and constantly updated website that can be used to explore the
information we have collected, at https://bertlang.unibocconi.it.
- Abstract(参考訳): 最近、自然言語処理(NLP)は、新しい事前訓練された文脈表現モデルの出現により、多くの分野で顕著な進歩をみせている。
特にdevlin et al. (2019) はbert(bidirectional encoder representations from transformers)と呼ばれるモデルを提案し、高度に特定のアーキテクチャを開発し訓練することなく、データセットやタスクの表現を微調整することで、研究者が多数のnlpタスクで最先端のパフォーマンスを得ることができるようにした。
著者らは、104言語のコーパスに基づいてトレーニングされたモデルである多言語bert(mbert)もリリースした。
このモデルはゼロショット言語間自然推論タスクで印象的な結果を得た。
BERTモデルの可能性によって、NLPコミュニティは、特定の言語でトレーニングされ、特定のデータドメインとタスクでテストされる多数のBERTモデルを調査し、生成し始めた。
これにより、より具体的なモデルの性能と比較することにより、mBERTの真のポテンシャルを普遍言語モデルとして評価することができる。
本稿では,言語固有のBERTモデルにおける技術の現状を述べるとともに,異なる次元(アーキテクチャ,データドメイン,タスク)に関する全体像を提供する。
本研究の目的は,言語特化 BERT モデルと mBERT の共通点と相違点の即時的かつ直接的な概要を提供することである。
また、定期的に更新されるインタラクティブなwebサイトを提供して、収集した情報をhttps://bertlang.unibocconi.itで探すことができます。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Comparison of Pre-trained Language Models for Turkish Address Parsing [0.0]
トルコの地図データに着目し,多言語とトルコを基盤とするBERT, DistilBERT, ELECTRA, RoBERTaを徹底的に評価する。
また,一層ファインチューニングの標準的なアプローチに加えて,細調整BERTのためのMultiLayer Perceptron (MLP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T12:09:43Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - lamBERT: Language and Action Learning Using Multimodal BERT [0.1942428068361014]
本研究では,マルチモーダルBERT(lamBERT)モデルを用いた言語と行動学習を提案する。
実験は、エージェントが適切に振る舞うために言語理解を必要とするグリッド環境で行われる。
lamBERTモデルは、他のモデルと比較してマルチタスク設定や転送設定において高い報酬を得た。
論文 参考訳(メタデータ) (2020-04-15T13:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。