論文の概要: KinyaBERT: a Morphology-aware Kinyarwanda Language Model
- arxiv url: http://arxiv.org/abs/2203.08459v2
- Date: Thu, 17 Mar 2022 12:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 10:44:50.862480
- Title: KinyaBERT: a Morphology-aware Kinyarwanda Language Model
- Title(参考訳): KinyaBERT: 形態を意識したKinyarwanda言語モデル
- Authors: Antoine Nzeyimana, Andre Niyongabo Rubungo
- Abstract要約: 教師なしサブワードトークン化法は、形態的にリッチな言語を扱うのに最適である。
本稿では, 形態素解析を応用し, 構造的構成性を明確に表現する, 単純かつ効果的な2層BERTアーキテクチャを提案する。
提案手法を低リソース形態素に富んだKinyaarwanda言語上で評価し,モデルアーキテクチャKinyaBERTを命名した。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-trained language models such as BERT have been successful at tackling
many natural language processing tasks. However, the unsupervised sub-word
tokenization methods commonly used in these models (e.g., byte-pair encoding -
BPE) are sub-optimal at handling morphologically rich languages. Even given a
morphological analyzer, naive sequencing of morphemes into a standard BERT
architecture is inefficient at capturing morphological compositionality and
expressing word-relative syntactic regularities. We address these challenges by
proposing a simple yet effective two-tier BERT architecture that leverages a
morphological analyzer and explicitly represents morphological
compositionality. Despite the success of BERT, most of its evaluations have
been conducted on high-resource languages, obscuring its applicability on
low-resource languages. We evaluate our proposed method on the low-resource
morphologically rich Kinyarwanda language, naming the proposed model
architecture KinyaBERT. A robust set of experimental results reveal that
KinyaBERT outperforms solid baselines by 2% in F1 score on a named entity
recognition task and by 4.3% in average score of a machine-translated GLUE
benchmark. KinyaBERT fine-tuning has better convergence and achieves more
robust results on multiple tasks even in the presence of translation noise.
- Abstract(参考訳): BERTのような事前訓練された言語モデルは、多くの自然言語処理タスクに取り組むことに成功している。
しかしながら、これらのモデルで一般的に使用される教師なしサブワードトークン化手法(例えば、バイトペアエンコーディングBPE)は、形態的にリッチな言語を扱うのに最適である。
形態素解析器が与えられたとしても、モルヒムを標準のBERTアーキテクチャに内在的にシークエンシングすることは、形態素構成性を捉え、単語相対的構文規則性を表現するのに非効率である。
これらの課題に対処するために, 形態素解析を応用し, 形態素構成性を明確に表現する, 単純かつ効果的な2層BERTアーキテクチャを提案する。
bertの成功にもかかわらず、その評価のほとんどは高リソース言語で行われており、低リソース言語に適用できない。
提案手法を低リソース形態素に富んだKinyaarwanda言語上で評価し,モデルアーキテクチャKinyaBERTを命名した。
KinyaBERTは、名前付きエンティティ認識タスクにおいてF1スコアの2%、機械翻訳GLUEベンチマークの平均スコアの4.3%で、ソリッドベースラインを上回っている。
KinyaBERTファインチューニングはより収束性が高く、翻訳ノイズがあっても複数のタスクに対してより堅牢な結果が得られる。
関連論文リスト
- Comparison of Pre-trained Language Models for Turkish Address Parsing [0.0]
トルコの地図データに着目し,多言語とトルコを基盤とするBERT, DistilBERT, ELECTRA, RoBERTaを徹底的に評価する。
また,一層ファインチューニングの標準的なアプローチに加えて,細調整BERTのためのMultiLayer Perceptron (MLP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T12:09:43Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Reranking Machine Translation Hypotheses with Structured and Web-based
Language Models [11.363601836199331]
N-best Rescoringには2つの構造化言語モデルが適用される。
これらの言語モデルの組み合わせにより、BLEUのスコアはブラインドテストセットで完全に1.6%まで上昇する。
論文 参考訳(メタデータ) (2021-04-25T22:09:03Z) - WangchanBERTa: Pretraining transformer-based Thai Language Models [2.186960190193067]
大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
論文 参考訳(メタデータ) (2021-01-24T03:06:34Z) - Enhancing deep neural networks with morphological information [0.0]
LSTMモデルとBERTモデルに形態学的特徴を加える効果を解析した。
その結果, 形態的特徴の付加は, 特徴の質や課題によって異なることが示唆された。
論文 参考訳(メタデータ) (2020-11-24T22:35:44Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。