論文の概要: Sources of Transfer in Multilingual Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2005.00847v1
- Date: Sat, 2 May 2020 15:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:33:38.304793
- Title: Sources of Transfer in Multilingual Named Entity Recognition
- Title(参考訳): 多言語固有体認識における伝達源
- Authors: David Mueller and Nicholas Andrews and Mark Dredze
- Abstract要約: ポリグロット認識モデルにおける多言語移動の源泉について検討する。
ポリグロットモデルは言語間で効率的に多くのパラメータを共有できる。
- 参考スコア(独自算出の注目度): 17.861704408540444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named-entities are inherently multilingual, and annotations in any given
language may be limited. This motivates us to consider polyglot named-entity
recognition (NER), where one model is trained using annotated data drawn from
more than one language. However, a straightforward implementation of this
simple idea does not always work in practice: naive training of NER models
using annotated data drawn from multiple languages consistently underperforms
models trained on monolingual data alone, despite having access to more
training data. The starting point of this paper is a simple solution to this
problem, in which polyglot models are fine-tuned on monolingual data to
consistently and significantly outperform their monolingual counterparts. To
explain this phenomena, we explore the sources of multilingual transfer in
polyglot NER models and examine the weight structure of polyglot models
compared to their monolingual counterparts. We find that polyglot models
efficiently share many parameters across languages and that fine-tuning may
utilize a large number of those parameters.
- Abstract(参考訳): 名前付きエンティティは本質的に多言語であり、任意の言語のアノテーションは制限される可能性がある。
このことは,複数の言語から抽出された注釈付きデータを用いて1つのモデルを訓練する多言語認識(NER)を考える動機となっている。
複数の言語から抽出された注釈付きデータを使用したNERモデルのナイーブトレーニングは、より多くのトレーニングデータにアクセスできたにもかかわらず、モノリンガルデータだけでトレーニングされたモデルを一貫して過小評価する。
本稿の出発点は,多言語モデルが単言語データに微調整され,その単言語モデルよりも一貫して著しく優れる,この問題に対する単純な解法である。
この現象を説明するために,多言語NERモデルの多言語移動源を探究し,多言語モデルの重み構造を単言語モデルと比較した。
ポリグロットモデルは言語間で効率的に多くのパラメータを共有でき、微調整はこれらのパラメータを多用する可能性がある。
関連論文リスト
- PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank [46.626315158735615]
事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練されたデータの制限のため、すべての言語品種に等しく適用されない。
このことは、ラベル付き未ラベルデータがモノリンガルモデルを効果的に訓練するにはあまりに限られている、これらのモデルに馴染みのない言語多様体にとっての課題である。
本稿では,低リソース環境に多言語モデルを適用するために,言語固有の事前学習と語彙拡張の利用を提案する。
論文 参考訳(メタデータ) (2020-09-29T16:12:52Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。