論文の概要: Exploring Swedish & English fastText Embeddings for NER with the
Transformer
- arxiv url: http://arxiv.org/abs/2007.16007v2
- Date: Sat, 17 Apr 2021 06:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 11:56:10.749016
- Title: Exploring Swedish & English fastText Embeddings for NER with the
Transformer
- Title(参考訳): トランスフォーマーによるnerのためのスウェーデン語と英語のfasttext埋め込みの検討
- Authors: Tosin P. Adewumi, Foteini Liwicki and Marcus Liwicki
- Abstract要約: 比較的小さなコーパスからの埋め込みはより大きなコーパスからの埋め込みよりも優れていることを示す。
より少ないトレーニングデータで、下流タスクにおいて、両方の言語でより良いパフォーマンスを得る。
n-gramという文字は、形態学的に豊かな言語であるスウェーデン語にとって有用である。
- 参考スコア(独自算出の注目度): 1.6507910904669727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, our main contributions are that embeddings from relatively
smaller corpora can outperform ones from larger corpora and we make the new
Swedish analogy test set publicly available. To achieve a good network
performance in natural language processing (NLP) downstream tasks, several
factors play important roles: dataset size, the right hyper-parameters, and
well-trained embeddings. We show that, with the right set of hyper-parameters,
good network performance can be reached even on smaller datasets. We evaluate
the embeddings at both the intrinsic and extrinsic levels. The embeddings are
deployed with the Transformer in named entity recognition (NER) task and
significance tests conducted. This is done for both Swedish and English. We
obtain better performance in both languages on the downstream task with smaller
training data, compared to recently released, Common Crawl versions; and
character n-grams appear useful for Swedish, a morphologically rich language.
- Abstract(参考訳): 本稿では,比較的小さなコーパスからの埋め込みがより大きなコーパスからの埋め込みよりも優れており,スウェーデンの新しいアナログテストセットを公開している。
自然言語処理(NLP)のダウンストリームタスクにおいて、優れたネットワーク性能を実現するために、データセットのサイズ、適切なハイパーパラメータ、よく訓練された埋め込みなど、いくつかの重要な役割を果たす。
ハイパーパラメータの適切なセットによって、より小さなデータセットでも優れたネットワーク性能が達成できることを示す。
内因性および外因性の両方において埋め込みを評価する。
埋め込みは、名前付きエンティティ認識(ner)タスクと重要度テストでトランスフォーマーと共にデプロイされる。
これはスウェーデン語と英語の両方で行われます。
最近リリースされた一般的なcrawlバージョンに比べて,下流タスクにおける両方の言語のパフォーマンスが向上し,形態学的にリッチな言語であるスウェーデン語では文字n-gramが有用である。
関連論文リスト
- Low-Resource Machine Translation through the Lens of Personalized Federated Learning [26.436144338377755]
異種データを用いた自然言語処理に適用可能な新しい手法を提案する。
大規模多言語機械翻訳共有タスクのデータセットを用いて,低リソース機械翻訳タスク上で評価を行った。
MeritFedは、その効果に加えて、トレーニングに使用する各言語の影響を追跡するために適用できるため、高度に解釈可能である。
論文 参考訳(メタデータ) (2024-06-18T12:50:00Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili [1.9686054517684888]
機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
論文 参考訳(メタデータ) (2023-06-12T20:43:24Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - T-VSE: Transformer-Based Visual Semantic Embedding [5.317624228510748]
トランスフォーマーをベースとしたクロスモーダル埋め込みは,電子商取引製品イメージタイトルペアの大規模なデータセットでトレーニングした場合,ワード平均やRNNベースの埋め込みをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2020-05-17T23:40:33Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z) - Machine Translation Pre-training for Data-to-Text Generation -- A Case
Study in Czech [5.609443065827995]
非英語言語におけるデータ・テキスト生成における機械翻訳に基づく事前学習の有効性について検討する。
事前トレーニングによって、パフォーマンスを大幅に向上したエンドツーエンドモデルのトレーニングが可能になります。
論文 参考訳(メタデータ) (2020-04-05T02:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。