論文の概要、ライセンス

# (参考訳) KoreALBERT:韓国語理解のためのLite BERTモデルの事前学習 [全文訳有]

KoreALBERT: Pretraining a Lite BERT Model for Korean Language Understanding ( http://arxiv.org/abs/2101.11363v1 )

ライセンス: CC BY 4.0
Hyunjae Lee, Jaewoong Yoon, Bonggyu Hwang, Seongho Joe, Seungjai Min, Youngjune Gwon(参考訳) A Lite BERT (ALBERT) は、自然言語の双方向表現学習を拡大するために導入された。 韓国語用に事前訓練されたALBERTモデルがないため、最も有効なプラクティスは多言語モデルか、他のBERTベースのモデルに取って代わることである。 本稿では,韓国語理解のための単言語ALBERTモデルであるPuleALBERTの開発と事前学習を行う。 我々は,新しい学習目標である単語順予測(word order prediction, wop)を導入し,既存のmlmとsopの基準を同じアーキテクチャとモデルパラメータに適用する。 モデルパラメータが大幅に少ないにもかかわらず、事前訓練されたPruALBERTは、6つの異なるNLUタスクでBERTよりも優れています。 Lanらによる英語の実証結果と一致して、韓国語のための多文符号化を含む下流タスク性能が向上したようである。 KoreALBERTは韓国のNLPの研究開発を促進するために公開されている。

A Lite BERT (ALBERT) has been introduced to scale up deep bidirectional representation learning for natural languages. Due to the lack of pretrained ALBERT models for Korean language, the best available practice is the multilingual model or resorting back to the any other BERT-based model. In this paper, we develop and pretrain KoreALBERT, a monolingual ALBERT model specifically for Korean language understanding. We introduce a new training objective, namely Word Order Prediction (WOP), and use alongside the existing MLM and SOP criteria to the same architecture and model parameters. Despite having significantly fewer model parameters (thus, quicker to train), our pretrained KoreALBERT outperforms its BERT counterpart on 6 different NLU tasks. Consistent with the empirical results in English by Lan et al., KoreALBERT seems to improve downstream task performance involving multi-sentence encoding for Korean language. The pretrained KoreALBERT is publicly available to encourage research and application development for Korean NLP.
公開日: Wed, 27 Jan 2021 12:48:53 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
KoreALBERT: Pretraining a Lite BERT Model for KoreAlBERT: Lite BERT Model の事前トレーニング 0.79
Korean Language Understanding Hyunjae Lee, Jaewoong Yoon, Bonggyu Hwang, Seongho Joe, Seungjai Min, Youngjune Gwon 韓国語理解 Hyunjae Lee, Jaewoong Yoon, Bonggyu Hwang, Seongho Joe, Seungjai Min, Youngjune Gwon 0.78
Samsung SDS Samsung SDS 0.85
1 2 0 2 n a J 1 2 0 2 n a J 0.85
7 2 ] L C . 7 2 ] L C。 0.78
s c [ 1 v 3 6 3 1 1 sc [ 1 v 3 6 3 1 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
Abstract—A Lite BERT (ALBERT) has been introduced to scale up deep bidirectional representation learning for natural languages. Abstract — A Lite BERT (ALBERT) は、自然言語の双方向表現学習を拡大するために導入された。 0.75
Due to the lack of pretrained ALBERT models for Korean language, the best available practice is the multilingual model or resorting back to the any other BERT-based model. 韓国語用に事前訓練されたALBERTモデルがないため、最も有効なプラクティスは多言語モデルか、他のBERTベースのモデルに取って代わることである。 0.71
In this paper, we develop and pretrain KoreALBERT, a monolingual ALBERT model specifically for Korean language understanding. 本稿では,韓国語理解のための単言語ALBERTモデルであるPuleALBERTの開発と事前学習を行う。 0.76
We introduce a new training objective, namely Word Order Prediction (WOP), and use alongside the existing MLM and SOP criteria to the same architecture and model parameters. 我々は,新しい学習目標である単語順予測(word order prediction, wop)を導入し,既存のmlmとsopの基準を同じアーキテクチャとモデルパラメータに適用する。 0.78
Despite having significantly fewer model parameters (thus, quicker to train), our pretrained KoreALBERT outperforms its BERT counterpart on 6 different NLU tasks. モデルパラメータが大幅に少ないにもかかわらず、事前訓練されたPruALBERTは、6つの異なるNLUタスクでBERTよりも優れています。 0.60
Consistent with the empirical results in English by Lan et al., KoreALBERT seems to improve downstream task performance involving multi-sentence encoding for Korean language. Lanらによる英語の実証結果と一致して、韓国語のための多文符号化を含む下流タスク性能が向上したようである。 0.63
The pretrained KoreALBERT is publicly available to encourage research and application development for Korean NLP. KoreALBERTは韓国のNLPの研究開発を促進するために公開されている。 0.76
I. INTRODUCTION Pre-trained language models are becoming an essential component to build a modern natural language processing (NLP) application. 私。 導入 事前訓練された言語モデルは、現代の自然言語処理(NLP)アプリケーションを構築する上で不可欠なコンポーネントになりつつある。
訳抜け防止モード: 私。 導入 トレーニング済み言語モデルが不可欠なコンポーネントになりつつある 現代の自然言語処理(NLP)アプリケーションを構築するため。
0.66
Previously, recurrent neural nets such as LSTM have dominated sequence-to-sequence (seq2seq) [1] modeling for natural languages, upholding state-of-the-art performances for core language understanding tasks. 以前は、LSTMなどの繰り返しニューラルネットワークは、自然言語のシーケンス・トゥ・シーケンス(seq2seq)[1]モデリングを支配しており、コア言語理解タスクの最先端のパフォーマンスを維持しています。 0.55
Since the introduction of the Transformer [2], recurrent structures in a neural language model are reconsidered and opted for attention, a mechanism that relates different positions in a sequence to compute a representation of the sequence. トランスフォーマー[2]の導入以来、ニューラルネットワークモデルにおける反復構造を再検討し、注意を向ける。これはシーケンス内の異なる位置を関連づけてシーケンスの表現を計算するメカニズムである。 0.73
Devlin et al. [3] have proposed Bidirectional Encoder Representations from Transformers (BERT) to improve on predominantly unidirectional training of a language model by using the masked language model (MLM) training objective. デヴリンとアル。 [3]は、マスキング言語モデル(MLM)学習目標を用いて、言語モデルの主に一方向トレーニングを改善するために、変換器(BERT)からの双方向エンコーダ表現を提案する。 0.69
MLM is an old concept dating back to the 1950s [4]. MLMは1950年代[4]にさかのぼる古い概念です。 0.73
By jointly conditioning on both left and right context in all layers, the MLM objective has made pre-training of the deep bidirectional language encoding possible. すべてのレイヤの左右のコンテキストを共同でコンディショニングすることで、mlmの目標は、深層双方向言語エンコーディングの事前トレーニングを可能にした。 0.65
BERT uses an additional loss for pre-training known as next-sentence prediction (NSP). BERTは、Next-sentence Prediction (NSP)として知られる事前トレーニングにさらなる損失を使用する。 0.57
NSP is designed to learn high-level linguistic coherence by predicting whether or not given two text segments should appear consecutively as in the original text. NSPは、2つのテキストセグメントを元のテキストのように連続して表示すべきかどうかを予測することによって、高レベルの言語的コヒーレンスを学ぶように設計されています。
訳抜け防止モード: NSPは高レベルの言語コヒーレンスを学習するために設計されている 与えられた2つのテキストセグメントが元のテキストのように連続して現れるかどうかを予測すること。
0.58
NSP can improve performance on downstream NLP tasks such as natural language inference that would require reasoning about inter-sentence relations. NSPは、文間関係の推論を必要とする自然言語推論のような下流のNLPタスクのパフォーマンスを向上させることができる。 0.65
A Lite BERT (ALBERT) uses parameter reduction techniques to alleviate scaling problems for BERT. Lite BERT(ALBERT)は、パラメータ低減技術を使用してBERTのスケーリング問題を軽減します。 0.72
ALBERT’s cross-layer parameter sharing can be thought as a form of regularization that helps stabilize the pre-training and generalize ALBERTのクロス層パラメータ共有は、事前学習の安定化と一般化を支援する正規化の一形態と考えることができる。 0.67
despite the substantially reduced number of model parameters. モデルパラメータの大幅な減少にもかかわらず。 0.78
Also, the sentence order prediction (SOP) objective in ALBERT replaces the ineffective the next sentence prediction (NSP) loss in BERT for better inter-sentence coherence. また、ALBERTの文順序予測(SOP)目的は、BERTにおける次の文位予測(NSP)損失を置き換え、文間コヒーレンスを改善する。 0.69
Downstream tasks play critical measures for evaluating emerging language models and NLP applications today. 下流のタスクは、現在、新興言語モデルとNLPアプリケーションを評価するための重要な手段です。 0.55
Pretrained language models are central to downstream task evaluations such as machine translation, text classification, and machine reading comprehension. 事前学習された言語モデルは、機械翻訳、テキスト分類、機械読解などの下流タスク評価の中心である。 0.73
At a high level, there are two approaches to use pre-trained language models. 高レベルでは、事前訓練された言語モデルを使用する2つのアプローチがあります。 0.65
First, pretrained models can provide additional feature representations for a downstream task. まず、事前訓練されたモデルは、下流タスクに追加の機能表現を提供することができる。 0.51
More importantly, pre-trained models can be a baseline upon which the downstream task is finetuned. さらに重要なことに、事前トレーニングされたモデルは、下流タスクが微調整されるベースラインとなる可能性がある。 0.53
By having an expensive, but shareable pre-training followed by much smaller fine-tuning, it is a powerful paradigm to focus on optimizing the performance of a downstream NLP task. 高価で共有可能な事前トレーニングとはるかに小さな微調整を持つことで、下流のNLPタスクのパフォーマンスを最適化することに集中する強力なパラダイムです。 0.70
Self-supervised learning with large corpora allows a suitable starting point for an outer task-specific layer being optimized from scratch while reusing the pre-trained model parameters. 大きなコーパスによる自己教師あり学習は、事前学習されたモデルパラメータを再利用しながら、スクラッチから最適化された外部タスク特定層のための適切な出発点を可能にする。 0.51
Since its introduction, BERT has achieved state-of-the-art language understanding accuracy performances for natural tasks such as GLUE [5], MultiNLI [6], SQuAD v1.1 [7] & SQuAD v2.0 [8], and CoNLL-2003 NER [9]. BERT は導入以来,GLUE [5], MultiNLI [6], SQuAD v1.1 [7] & SQuAD v2.0 [8], CoNLL-2003 NER [9] などの自然言語タスクに対して,最先端の言語理解精度を達成している。 0.80
Despite having fewer parameters than BERT, ALBERT has been able to achieve new state-of-the-art results on the GLUE, RACE [10], and SQuAD benchmarks. BERTよりもパラメータが少ないにもかかわらず、ALBERTはGLUE、RACE [10]、SQuADベンチマークで新しい最先端の結果を達成することができた。 0.66
It is important to remark that a large network is crucial in pushing state-of-the-art results for downstream tasks. ダウンストリームタスクに最先端の結果をプッシュする上で,大規模なネットワークが重要である点には注意が必要だ。 0.59
While BERT gives a sound choice to build a general language model trained on large corpora, it is difficult to experiment with training large BERT models due to the memory limitations and computational constraints. BERTは、大きなコーパスで訓練された汎用言語モデルを構築するための健全な選択を与えるが、メモリ制限と計算制約のため、大きなBERTモデルをトレーニングする実験は困難である。 0.79
Training BERT-large in fact is a lengthy process of consuming significant hardware resources. BERTを大規模にトレーニングすることは、重要なハードウェアリソースを消費する長いプロセスです。 0.64
Besides, there are already a wide variety of languages pretrained in BERT, which include the multilingual BERT and monolingual models pre-trained in 104 different languages. BERTには、多言語BERTや104の言語で事前訓練されたモノリンガルモデルなど、様々な言語が事前訓練されている。 0.78
ALBERT, however, gives a much narrower choice in languages. しかし、ALBERTは言語の選択肢をはるかに狭くします。 0.75
Asserting an argument that having a better language model is roughly equivalent to pre-train a large model, all without imposing too much memory and computational requirements, we choose to go with ALBERT. より優れた言語モデルを持つことは、大きめのモデルを事前訓練することとほぼ同等であり、メモリと計算の要求を過大に含まず、ALBERTを使うことにした。 0.77
In this paper, we develop and train KoreALBERT, a monolingual ALBERT model for Korean language understanding. 本稿では,韓国語理解のための単言語ALBERTモデルであるKoreALBERTを開発し,訓練する。 0.73
Compared to a multilingual model, monolingual language models are known to optimize 多言語モデルと比較すると、単言語モデルは最適化することが知られている 0.65
英語(論文から抽出)日本語訳スコア
the performance for a specific language in every aspect, including downstream tasks critical to build modern NLP systems and applications. 現代のNLPシステムとアプリケーションの構築に不可欠な下流タスクを含む、あらゆる面で特定の言語のパフォーマンス。 0.77
In addition to the original ALBERT MLM and SOP training objectives, we introduce a word order prediction (WOP) loss. 従来のALBERT MLMとSOPトレーニングの目的に加えて,単語順序予測(WOP)損失を導入する。 0.71
WOP is fully compatible with the MLM and SOP losses and can be added gracefully in implementation. WOPはMLMとSOPの損失と完全に互換性があり、適切に実装できる。 0.65
Our pre-trained KoreALBERT could outperform multilingual BERT and its BERT counterpart on a brief evaluation with KorQuAD 1.0 benchmark for machine reading comprehension. KorQuAD 1.0ベンチマークによる機械読解の簡易な評価により,プレトレーニング済みの KoreALBERT は多言語BERT とBERT を上回りました。 0.62
Consistent with the empirical results of ALBERT pre-trained in English reported by Lan et al. Lan et alによって報告される英語で事前訓練されたALBERTの実証結果と一致します。 0.55
[11], KoreALBERT seems to improve supervised downstream task performances involving multiple Korean sentences. 11]、KoreALBERTは複数の韓国の文を含む監督下流のタスクのパフォーマンスを改善するようです。 0.58
The rest of this paper is organized as follows. 本論文の残りは以下のとおり整理される。 0.76
In Section II, we provide background on pre-trained neural language models. 第2節では、トレーニング済みのニューラルネットワークモデルの背景について説明する。 0.46
Section III presents KoreALBERT. 第III節はKoreALBERTを提示する。 0.46
In Section IV, we describe our implementation, pre-training, and empirical evaluation of KoreALBERT. セクションIVでは、KoreALBERTの実装、事前トレーニング、および実証的評価について説明します。 0.55
Section V concludes the paper. 第5節は論文を締めくくる。 0.44
Our pre-trained KoreALBERT is publicly available to encourage NLP research and application development for Korean language. 韓国語に対するNLP研究と応用開発を促進するために,我々の事前訓練済みのPruALBERTが公開されている。
訳抜け防止モード: プレトレーニング済みのPuleALBERTが公開 韓国語のためのNLP研究と応用開発を奨励する。
0.75
A. Transformer, BERT, and ALBERT A. Transformer, BERT, および ALBERT 0.94
II. BACKGROUND II。 バックグラウンド 0.64
Transformer [2] is a sequence transduction model based solely on attention mechanism, skipping any recurrent and convolutional structures of a neural network. transformer [2]は、注意メカニズムのみに基づいたシーケンス変換モデルであり、ニューラルネットワークのリカレントおよび畳み込み構造をスキップする。 0.75
The transformer architecture includes multiple identical encoder and decoder blocks stacked on top of each other. トランスアーキテクチャには、複数の同一エンコーダとデコーダブロックが積み重ねられている。 0.63
While the encoder captures linguistic information of the input sequence and produces the contextual representations, the decoder generates output sequence corresponding to its pair of input. エンコーダは入力シーケンスの言語情報をキャプチャして文脈表現を生成するが、デコーダはその対の入力に対応する出力シーケンスを生成する。 0.82
Thanks to multihead self-attention layers in an encoder block, transformer can acquire varying attentions within a single sequence and alleviate inevitable dragging caused during the training of a recurrent neural network. エンコーダブロックのマルチヘッドセルフアテンション層のおかげで、トランスフォーマは単一のシーケンス内で様々な注意を引き付け、リカレントニューラルネットワークのトレーニング中に引き起こされる必然的な引きずりを軽減することができる。 0.72
BERT distinguishes itself from other language models that predict the next word given previous words by introducing new training methods. BERTは、新しいトレーニング手法を導入することで、以前の単語の次の単語を予測する他の言語モデルと区別する。 0.73
Instead of predicting the next token given only previous tokens, it has to predict replaced word by special token [MASK]. 以前のトークンだけが与えられた次のトークンを予測する代わりに、置き換えられたwordを特別なトークン[mask]で予測する必要がある。
訳抜け防止モード: 以前のトークンのみを与えられた次のトークンを予測する代わりに、 代入語を特殊トークン[マスク]で予測しなければならない.
0.70
This training strategy gives BERT bidirectionality which means having an access to left and right context around the target word. このトレーニング戦略は、ターゲット単語の周りの左右のコンテキストにアクセスできるBERT双方向性を提供します。 0.76
Thus, BERT can produce deep bidirectional representation of input sequence. したがって、BERTは入力シーケンスの深い双方向表現を生成することができる。 0.55
RoBERTa [12], ALBERT [11] and other variants [13], [14] utilize bidirectional context representation and established state-of-the-art results on a wide range of NLP tasks. RoBERTa [12], ALBERT [11] およびその他の変種 [13], [14] は双方向コンテキスト表現を利用し, 幅広い NLP タスクに対して最先端の結果を確立する。 0.86
BERT is trained with the masked language modeling (MLM) and the next sentence prediction (NSP) losses. BERTは、マスキング言語モデリング(MLM)と次の文予測(NSP)の損失で訓練されます。 0.85
NSP is a binary classification task to predict whether or not given two segments separated by another special token [SEP] follow each other in the original text. NSPは、別の特別なトークン[SEP]によって分離された2つのセグメントが元のテキストで互いに従うかどうかを予測するためのバイナリ分類タスクです。 0.71
The task is intended to learn the relationship between two sentences in order to use on many downstream tasks of which input template consists of two sentences as in question answering (QA) and sentence entailment [3]. 本課題は,入力テンプレートが質問応答(QA)と文係り[3]の2つの文から構成される下流タスクの多くに使用するために,2つの文間の関係を学習することを目的としている。 0.72
Recently, there is a criticism toward NSP that the NSP loss does not necessarily help improve the downstream task performances [11], [12], [15] for its loose inter-sentential coherence. 近年,NSP の損失は,その緩やかな相互整合性に対して,下流タスク性能 [11], [12], [15] の向上に必ずしも寄与しない,という批判もある。 0.80
Among them, ALBERT, whose architecture is derived from BERT, uses a sentence order prediction(SOP) task instead. その中でも、BERTから派生したアーキテクチャであるALBERTは、代わりに文順序予測(SOP)タスクを使用します。 0.60
In the SOP task, negative examples consist of a pair of sentences from the same document, but the sentence order is swapped, and the model should predict whether or not the order is swapped. SOPタスクでは、ネガティブな例は同じ文書からの文のペアで構成されますが、文順序はスワップされ、モデルは順序がスワップされるかどうかを予測する必要があります。 0.69
With the improved SOP loss and other parameter reduction techniques, ALBERT significantly reduces the number of parameters–i.e., 18x fewer for BERT-large, while achieving similar or better performance on downstream tasks [11]. 改良されたSOP損失およびその他のパラメータ削減技術により、ALBERTは、下流タスク [11] で同様の、またはより良いパフォーマンスを達成しつつ、BERT-large のパラメータ数を 18 倍削減する。 0.70
KoreALBERT takes the unmodified ALBERT architecture as a baseline. KoreALBERTは、修正されていないALBERTアーキテクチャをベースラインとしている。 0.53
We train KoreALBERT from scratch on large Korean corpora collected online. オンラインで収集した大韓国のコーパスをスクラッチからトレーニングする。 0.53
B. Related Work Google has released BERT multilingual model (M-BERT) pre-trained using 104 different languages including the Korean. B。 関連作品 googleは、韓国を含む104の言語で事前トレーニングされたbert multilingual model (m-bert)をリリースした。 0.66
Karthikeyan et al. Karthikeyanら。 0.57
[16] show why and how well MBERT works on many downstream NLP tasks without explicitly training with monolingual corpus. 16] MBERTがモノリンガルコーパスで明示的に訓練することなく、多くの下流NLPタスクでどのように機能するかを示します。 0.54
More recently, Facebook AI Research presented crosslingual model (XLMR) [17] generally outperforming M-BERT. 最近では、Facebook AI Researchがクロスリンガルモデル(XLMR)[17]を公表し、一般的にM-BERTを上回った。 0.57
Recent literature argues that a monolingual is consistently superior to M-BERT. 最近の文献では、モノリンガルはM-BERTよりも一貫して優れていると主張している。 0.39
For French, FlauBERT [18] and CamemBERT [19] with the same approach as RoBERTa have been released. フランス語では、RoBERTaと同じアプローチのFlauBERT[18]とCamemBERT[19]がリリースされています。 0.83
ALBERTo [20] focuses on Italian social network data. ALBERTo [20]はイタリアのソーシャルネットワークデータに焦点を当てています。 0.64
BERTje [21] for Dutch and FinBERT [22] for Finnish have been developed. オランダ語 BERTje [21] とフィンランド語 FinBERT [22] が開発されている。 0.83
They both have achieved superior results on the majority of downstream NLP tasks compared to MBERT. どちらも、MBERTと比較して、下流のNLPタスクの大部分で優れた結果を達成しています。 0.53
language model Some previous work in the Korean language has focused on learning static representations by using language-specific properties [23]. 言語モデル 韓国語の以前の研究では、言語固有のプロパティを使用して静的表現を学ぶことに焦点を当てています[23]。
訳抜け防止モード: 言語モデル 以前の韓国語の研究は 言語を使って静的表現を学ぶ - 特定のプロパティ [23]。
0.75
More recently, SKT Brain has released BERT 1 and GPT-2 pre-trained on large Korean corpora.2 Korean Electronics and Telecommunications Research Institute (ETRI) has released two versions of BERT: the morpheme analytic based and the syllable based model.3 These models are worthwhile to experiment with and provide good benchmark evaluations in Korean language model research. 最近では、skt brain が bert 1 と gpt-2 を大韓民国コーポラに事前トレーニングした。 韓国電子通信研究所 (etri) が bert の2つのバージョンをリリースした。morpheme analytic based と syllable based model である。3 これらのモデルは、実験と、韓国語モデル研究における優れたベンチマーク評価を提供する価値がある。
訳抜け防止モード: 最近では、SKT BrainがBERT 1とGPT-2 Preをリリースした。 大型韓国企業2韓国電子電気通信研究所(ETRI) BERTは2つのバージョンをリリースした: 形態素解析ベースと音節モデル。3これらのモデルは実験する価値がある。 韓国語モデル研究における優れたベンチマーク評価を提供する。
0.72
BART [24] features interesting denoising approaches for input text used in pre-training such as sentence permutation and text infilling. BART [24]は、文の置換やテキストの入力など、事前学習に使用される入力テキストに対する興味深い消音アプローチを備えています。 0.54
In the sentence permutation task, an input document is divided into sentences and shuffled in a random order. 文置換タスクでは、入力文書を文章に分割し、ランダムな順序でシャッフルする。 0.56
A combination of text infilling and sentence shuffling tasks has shown significant improvement of the performance over either applied separately. テキスト入力と文シャッフルタスクの組み合わせは、それぞれ別々に適用された性能を大幅に改善した。 0.79
Inspired by BART, we have formulated word order prediction (WOP), a new pre-training loss used alongside the MLM and SOP losses for KoreALBERT. BARTにインスパイアされ、KoreALBERTのMLMおよびSOP損失と一緒に使用される新しいトレーニング前の損失である単語順序予測(WOP)を定式化しました。
訳抜け防止モード: BARTにインスパイアされた。 We have formulated word order prediction (WOP), a new pre- training loss with the MLM and SOP loss for KoreALBERT。
0.77
Differentiated from BART, which is essentially a sentence-level shuffling, WOP is an intra-sentence, token-level shuffling. 文レベルのシャッフルであるBARTとは異なり、WOPは文内のトークンレベルのシャッフルである。 0.60
1https://github.com/ SKTBrain/KoBERT 2https://github.com/ SKT-AI/KoGPT2 3http://aiopen.etri. re.kr/service dataset.php 1https://github.com/ SKTBrain/KoBERT 2https://github.com/ SKT-AI/KoGPT2 3http://aiopen.etri. re.kr/service dataset.php 0.29
英語(論文から抽出)日本語訳スコア
III. KOREALBERT: TRAINING KOREAN LANGUAGE III。 KOREALBERT:トレーニングKOREAN LANGUAGE。 0.81
MODEL USING ALBERT アルベルトを用いたモデル 0.49
A. Architecture KoreALBERT is a multi-layer bidirectional Transformer encoder with the same factorized embedding parameterization and cross-layer sharing as ALBERT. A。 建築 KoreALBERT は多層双方向トランスフォーマーエンコーダで、ALBERT と同じ因子化埋め込みパラメータ化と層間共有を行う。 0.77
Inheriting ALBERT-base, KoreALBERT-base has 12 parameter sharing layers with an embedding size of 128 dimensions, 768 hidden units, 12 heads, and GELU nonlinearities [25]. KoreALBERT-baseは12のパラメータ共有層を持ち、埋め込みサイズは128次元、隠されたユニット768、ヘッド12、およびGELU非直線性[25]です。 0.77
The total number of parameters in KoreALBERT-base is 12 millions, and it increases to 18-million parameters for KoreALBERT-large having 1024 hidden dimensions. KoreALBERTベースのパラメータの総数は12百万で、1024の隠された寸法を持つKoreALBERT大の18ミリオンパラメータに増加します。 0.71
Lan et al. [11] argues that removing dropout has significantly helped pretraining with the masked language modeling (MLM) loss. lanなど。 11]は、ドロップアウトの除去は、マスキング言語モデリング(MLM)損失による事前トレーニングに大きく貢献したと主張している。
訳抜け防止モード: lanなど。 11] 論じる. ドロップアウトの削除は、マスク付き言語モデリング(MLM)損失の事前トレーニングに大いに役立っている。
0.55
For KoreALBERT, however, we have made an empirical decision to keep dropout after observing degraded downstream performances without dropout. しかし、PruALBERTでは、ダウンアウトのないダウンストリームパフォーマンスの劣化を観察した後、ドロップアウトを継続するという実証的な決定をした。 0.44
B. Training Objectives ALBERT pretrains on two objectives: masked language modeling (MLM) and sentence order prediction (SOP) losses. B。 訓練目的 ALBERTは、マスク言語モデリング(MLM)と文順予測(SOP)の2つの目的を事前訓練する。
訳抜け防止モード: B。 訓練目的 ALBERTの2つの目的 : マスク言語モデリング(MLM) そして文順序の予測(SOP)の損失。
0.76
We keep both objectives for KoreALBERT and introduce an additional training objective called word order prediction (WOP). KorealBERTの目標を両方保持し、ワードオーダー予測(WOP)と呼ばれる追加のトレーニング目標を導入します。 0.65
Word Order Prediction (WOP). 単語順序予測(WOP)。 0.65
Korean is an agglutinative language that a combination of affixes and word roots determines usage and meaning [26]. 韓国語は接尾辞と語根の組み合わせで用法と意味が決定される不可解な言語である[26]。 0.73
Decomposing a Korean word into several morphemes and shuffling its order can introduce grammatical errors and semantic altercations. 韓国語の単語をいくつかの形態素に分解し、その順序をシャッフルすると、文法的誤りや意味的変化が現れる。 0.46
We impose a word order prediction (WOP) loss for pretraining KoreALBERT. KoreALBERTを前訓練するための単語順序予測(WOP)損失を課す。 0.79
The WOP objective is a cross-entropy loss on predicting a correct order of shuffled tokens. WOPの目的は、シャッフルトークンの正しい順序を予測するためのクロスエントロピー損失である。 0.68
WOP is fully compatible with the ALBERT MLM and SOP, and we expect to reinforce correct agglutination (or point out incorrect agglutinative usages) beyond simply checking intra-sentence word orderings. WOP は ALBERT MLM や SOP と完全互換であり,単に文内単語の順序をチェックするだけでなく,正しい凝集(あるいは誤った凝集使用を指摘)の強化を期待する。 0.74
There is an interesting point of view about WOP mixed with MLM and SOP towards the problem of generating a full sentence from a small subset of permuted words. MLM と SOP を混合した WOP に関する興味深い見解は、置換された単語の小さな部分集合から全文を生成する問題に向けられている。 0.81
Our primary focus of this paper is on the empirical side of the design and pretraining of an ALBERTbased foreign language model rather than a formal analysis on training objectives. 本論文の主な焦点は,訓練対象に関する形式的分析ではなく,アルバート型外国語モデルの設計と事前学習に関する経験的側面である。 0.79
The pretraining of KoreALBERT is illustrated in Fig. KoreALBERTの事前トレーニングは図で示されています。 0.63
1. A randomly sampled subset of tokens in the input text are replaced with [MASK]. 1. 入力テキスト中のトークンのランダムにサンプリングされたサブセットを[MASK]に置き換える。 0.81
MLM computes a cross-entropy loss on prediction of the masked tokens. mlmはマスクされたトークンの予測でクロスエントロピー損失を計算する。 0.64
As with ALBERT-base, we uniformly choose 15% of the input tokens for possible masking, and the 80% of the chosen are actually replaced with [MASK], leaving 10% unchanged and the rest replaced with randomly selected tokens. ALBERTベースと同様に、マスク可能な入力トークンの15%を均一に選択し、選択した80%は実際に[MASK]に置き換えられ、10%は変更されず、残りはランダムに選択されたトークンに置き換えられる。 0.73
SOP is known to focus on modeling inter-sentence coherence. SOPは文間コヒーレンスをモデリングすることにフォーカスすることが知られている。 0.50
The SOP loss uses two consecutive segments from the same text as a positive example and as a negative example if their order is swapped. SOP損失は、同じテキストから連続した2つのセグメントを正の例として、また、注文がスワップされた場合の負の例として使用する。
訳抜け防止モード: SOP損失は、正の例として、同じテキストから2つの連続セグメントを使用する 注文がスワップされた場合の 否定的な例です
0.69
We have found that if WOP is too difficult, it can crucially impact the KoreALBERT performance on downstream evaluations. WOPが難しすぎると、KoreALBERTの性能が下流の評価に大きく影響する可能性があります。 0.59
We have experimentally determined WOP to inter-work with MLM and SOP and limited the shuffling rate up to 15%, which seemingly realizes the best empirical performance for our case. We have been experimentally determined WOP to inter-work with MLM and SOP and limited the shuffling rate to 15%, which is realizes the best empirical performance for our case。 0.78
In addition, we have decided to include WOP into only specific portion of all batches. さらに、WOPをすべてのバッチの特定の部分だけに含めることにしました。 0.65
We revisit more detailed description of our experimental setup in Section 4. セクション4の実験セットアップのより詳細な説明を再検討します。 0.74
Like MLM, we choose a uniformly random set of tokens for WOP. MLMと同様に、WOP用の一様ランダムなトークンセットを選択します。 0.74
The most crucial part of integrating WOP into pretraining is not switching tokens across [MASK]. WOPをプリトレーニングに統合する上で最も重要な部分は、トークンを[MASK]に切り替えないことです。 0.57
This constraint minimizes the corruption of contextual bidirectionality that acts as essential information in denoising the [MASK] tokens. この制約は[mask]トークンを修飾する上で不可欠な情報として振る舞う文脈的双方向性の腐敗を最小限に抑える。 0.57
C. Optimization We use the LAMB optimizer [27] with a learning rate of 1.25 × 10−3 and a warm-up ratio 1.25 × 10−2. C.最適化 LAMBオプティマイザ[27]を学習率 1.25 × 10−3 とウォームアップ比 1.25 × 10−2 で使用する。 0.71
To speed up the pretraining, we maintain an input sequence length of 128 tokens despite the risk of suboptimal performance. プリトレーニングを高速化するため,サブ最適性能のリスクがあるにもかかわらず,入力シーケンス長128トークンを維持する。 0.75
Due to memory limitations, it is necessary to use gradient accumulation steps for a batch size of 2,048, which is comparable to BERT. メモリの制限のために、BERTに匹敵する2,048のバッチサイズに勾配の蓄積ステップを使用する必要があります。 0.66
We apply a dropout rate of 0.1 on all layers and attention weights. すべての層に0.1の落差率と注意重みを施す。 0.69
We use a GELU activation function [25]. GELUアクティベーション機能[25]を使用します。 0.73
A. Implementation IV. EXPERIMENTS A。 実施 IV。 実験 0.65
We implement KoreALBERT based on Hugging Face’s transformer library [28] with almost an identical model configuration for ALBERT-base. We implement KoreALBERT based on Hugging Face's transformer library [28] with almost same model configuration for ALBERT-base。 0.85
We add another linear classifier on top of the encoder output for WOP task. WOPタスクのエンコーダ出力の上に別の線形分類子を追加します。 0.73
The added layer is used to predict the probability of the original position of words in the sequence via softmax. 付加層はsoftmaxを介してシーケンス内の単語の元の位置の確率を予測するために使用される。 0.82
Like the MLM objective, we take into account only switched tokens to compute the cross-entropy loss. MLMの目的と同様に、切り替えトークンのみを考慮して、クロスエントロピー損失を計算します。 0.67
We train our model using 4 NVidia V100 GPUs with half-precision floating-point weights. 半精度浮動小数点重みを持つ4つのNVidia V100 GPUを用いてモデルをトレーニングする。 0.56
B. Data Many BERT-style language models include Wikipedia in the pre-training corpora for a wide coverage of topics in relatively high-quality writing. B。 データ 多くのBERTスタイルの言語モデルには、比較的高品質の執筆におけるトピックの広い範囲をカバーするための事前トレーニングコーポラのWikipediaが含まれます。 0.69
Korean Wikipedia currently ranks the 23rd by volume, and this is just 7.8% compared to English Wikipedia. 韓国語版ウィキペディアは現在第23位であり、英語版ウィキペディアに比べてわずか7.8%である。 0.74
To supplement training examples and the diversity of our corpus, we also use the text from NamuWiki4, which is another Korean online encyclopedia that contains more subjective opinions covering a variety of topics and writing styles. トレーニング例とコーパスの多様性を補うために、私たちはまた、さまざまなトピックと執筆スタイルをカバーするより主観的な意見を含む韓国のオンライン百科事典であるNamuWiki4からのテキストを使用しています。 0.68
1) Pretraining corpora: our pretraining corpora include the 1)プリトレーニングコーパス:私たちのプリトレーニングコーパスには 0.65
following. • Web News: all articles from 8 major newspapers of Korea accross the topics including politics, social, economics, culture, IT, opinion, and sports from January 1, 2007 to December 31, 2019. 以下。 •Webニュース:2007年1月1日から2019年12月31日まで、韓国の8大新聞の全ての記事が政治、社会、経済、文化、IT、意見、スポーツなどのトピックを網羅しています。 0.66
• Korean Wikipedia: 490,220 documents crawled in Octo- ・朝鮮語ウィキペディア・オクトの文書490,220件 0.56
• NamuWiki: 740,094 documents crawled in December, • namuwiki: 740,094通 12月にクロールされた文書 0.56
ber, 2019. 2019. 2019年11月 2019. 0.73
4https://en.wikipedi a.org/wiki/Namuwiki 4https://en.wikipedi a.org/wiki/Namuwiki 0.31
英語(論文から抽出)日本語訳スコア
Fig. 1. Pre-training KoreALBERT with the MLM, SOP, and WOP objectives. フィギュア。 1. MLM、SOP、WOPの目標を用いたPruALBERTの事前トレーニング。 0.63
The loss (on top) with respect to all three objectives is calculated for illustrative purposes. 3つの目的すべてに対する損失(トップ)は、図示的な目的のために計算される。 0.75
In our implementation, classification layer (highlighted gray) in the middle consisting of three identical heads produces a logit vector with respect to each label. 本実装では,3つの同一ヘッドからなる中央の分類層(ハイライトグレー)が,各ラベルに対してロジットベクトルを生成する。 0.85
• Book corpus: plots and editorial reviews about all Korean •書籍コーパス:全韓国語に関するプロットと論評 0.72
books published in 2010 to December 31, 20195 2010年 - 20195年12月31日出版。 0.74
2) Text preprocessing: We have preprocessed our text data in the following manner. 2) テキスト前処理: テキストデータを下記の方法で前処理しました。 0.79
First, we remove all meta-tags such as the date of writing and name(s) of the author(s) in newspapers appearing in the beginning and at the end of each article. まず,各記事の冒頭および末尾に掲載されている新聞において,著者の名前や記入日などのメタタグをすべて削除する。 0.59
We think that the meta-tags do not contain any contextual or semantic information essential for NLU tasks. メタタグには,NLUタスクに必要なコンテキスト情報や意味情報が含まれていないと考えられる。 0.61
We also adjust the proportion of categories making up the news corpus in order to avoid topical bias of the examples. また、事例の局所的な偏見を避けるために、ニュースコーパスを構成するカテゴリの割合を調整します。 0.68
We tokenize the corpora into subwords using SentencePiece tokenizer [29] like ALBERT to construct vocabulary of a size 32k. コーパスを ALBERT のような SentencePiece トークンライザ[29] を用いてサブワードにトークン化し,32k サイズの語彙を構築する。 0.71
We mask randomly sampled 15% of the words using the whole word masking strategy recently introduced by BERT. BERTが最近導入した全単語マスキング戦略を用いて, 単語の15%をランダムにマスキングした。 0.79
After cleaning and regularizing text, we obtain 43GB text with 325 million sentences, which are equivalent to 4.4 billion words or 18 billion characters. テキストのクリーニングと正規化の後、3億2500万文の43gbのテキストを取得し、これは440億ワードまたは18億文字に相当する。 0.63
C. Compatibility of Word Order Prediction (WOP) C. 単語順序予測(WOP)の互換性 0.82
We have performed ablation experiments with and without WOP to empirically observe its compatibility with the MLM and SOP objectives by pretraining for 125K steps, which is the half of the entire pre-training. We have performed ablation experiment with and without WOP to empirically observed its compatibility with the MLM and SOP objectives by pretraining for 125K steps, is the half of the pre-training。 0.83
A critical decision to introduce new noise via WOP is how many training examples should entail the additional noising process as well as how many tokens should be shuffled inside a sentence. wopによって新たなノイズを導入するための重要な決定は、追加のノーミングプロセスと、文内でシャッフルすべきトークンの数を伴うトレーニングサンプルの数だ。 0.72
We sample batches to contain re-ordered tokens proportionally from 30 to 100%. 再注文されたトークンを30から100%の割合で含むバッチをサンプリングする。 0.56
We have observed that about 30-50% shuffling achieves a good performance for most cases. 私たちは、約30〜50%のシャフリングがほとんどのケースで優れたパフォーマンスを達成することを観察しました。 0.45
Results are averaged over 10 different seeds and summarized in Table I. 結果は10種以上の種で表Iにまとめられている。 0.64
5http://book.interpa rk.com/ 5http://book.interpa rk.com/ 0.39
We set up three combinations of the pretraining objectives to compare against one another in the downstream evaluations to highlight the effect of WOP. WOPの効果を明らかにするために、下流評価において、事前学習対象を3つの組み合わせて比較した。 0.63
We also observe the intrinsic performance of each objective. また、各目的の本質的なパフォーマンスも観察する。 0.63
In the WOP and MLM combination, we configure the portion of corrupted examples to 30% for the WOP objective. WOP と MLM の組み合わせでは、破損したサンプルの部分を WOP 目的の 30% に設定します。 0.71
From the result averaged over 10 different seeds in Table II, WOP hardly hurts the performance of MLM or SOP. 表IIにおける10種以上の種子の平均値から、WOPはMLMやSOPのパフォーマンスをほとんど損なわない。 0.73
The accuracy of MLM and WOP tasks has improved in case of leaving the SOP objective out. MLMとWOPのタスクの精度は、SOPの目標を外した場合に向上しました。 0.68
We believe that the best usage for WOP is not to disturb other intrinsic tasks for pretraining. WOPの最良の使い方は、事前トレーニングのための他の本質的なタスクを妨げることではないと信じています。 0.54
WOP should be added by carefully observing the performance of other objectives on different WOP configurations. WOPは、異なるWOP設定で他の目的のパフォーマンスを注意深く観察することによって追加されるべきです。
訳抜け防止モード: WOPは追加されるべきである 異なるWOP構成で、他の目的のパフォーマンスを注意深く観察する。
0.64
As expected, the deletion of SOP has caused a degradation more than 3% in the downstream performances of semantic textual similarity (8,628 examples) and paraphrase detection (7,576 examples). 予想通り、SOPの削除により、セマンティックテキスト類似性(8,628例)とパラフレーズ検出(7,576例)の下流性能が3%以上低下した。 0.72
These two tasks are relatively small data experiments. この2つのタスクは比較的小さなデータ実験です。 0.71
Surprisingly, the performance of KorNLI is better without SOP because NLI tasks depend on inter-sentence coherence. NLIタスクは文間コヒーレンスに依存しているため、KorNLIのパフォーマンスはSOPなしでは優れています。 0.66
Note that KorNLI is a much larger dataset (950,354 examples) compared to the semantic textual similarity and paraphrase detection datasets. KorNLIは、意味的なテキストの類似性やパラフレーズ検出データセットと比較して、はるかに大きなデータセット(950,354の例)である。
訳抜け防止モード: KorNLIはもっと大きなデータセットである。 (950,354件) セマンティックテキストの類似性とパラフレーズ検出データセットとの比較。
0.73
Combining the two denoising objectives MLM and WOP seems to alleviate the performance degradation for a classification task with multi-sentence input. MLMとWOPの2つの聴覚目標を組み合わせることで、多文入力による分類タスクの性能劣化が軽減される。 0.71
D. Evaluation We fine-tune KoreALBERT for downstream performance evaluations. D.評価 下流の性能評価にはPruALBERTを微調整する。 0.66
For comparison, we consider other pretrained BERT-base language models available off-the-shelf. 比較のために、他のトレーニング済みBERTベース言語モデルについても検討する。 0.50
1) Fine-tuning: In addition to our KoreALBERT, we have downloaded pretrained models available online: multilingual 1)ファインチューニング: KoreALBERTに加えて、トレーニング済みのモデルをオンラインでダウンロードしました。 0.67
MaskingRe-orderingAL BERTOutputMLM𝑇′𝑁𝑆𝐸𝑃…𝑇′2…𝑇2𝑇1𝑇′𝑁…𝑆𝐸𝑃𝑇′3…𝑇2𝑇1…𝑂𝑇2𝑂𝑇1𝑂𝑇3′𝑂𝑇𝐾𝑂𝑆𝐸𝑃…𝑂𝑇2′−−−−𝑇3−−−−𝑇′1𝑂𝐶𝐿𝑆𝐶𝐿𝑆𝐶𝐿𝑆−SOP0/1−−−−−−−−−WOP𝟑′−−−−𝟏𝟐𝟐′−−−−𝑆𝐸𝑃𝑆𝐸𝑃𝑇𝐾𝑇𝐾𝑂𝑆𝐸𝑃𝑂𝑇𝑁′−−−−−−𝑇′3𝑇′2Loss0/112𝑇33′2′𝑇′1𝑀𝐴𝑆𝐾𝑀𝐴𝑆𝐾𝑀𝐴𝑆𝐾𝑀𝐴𝑆𝐾𝑂𝑀𝐴𝑆𝐾𝑂𝑀𝐴𝑆𝐾Dense + Activation(Gelu) + Normalization Masking Re-orderingALBERTOut putMLMT′NSEP...T′2...T2T1T′N...SEPT′3...T2T1...OT2OT1OT3 ′OTKOSEP...OT2′−−−−T3−−−−T′1OCLSCLSCLS−SOP0/1−−−−−−−−−−−WOP3′−−−−−122′−−−SEPSEPTKKKOSEPOTN′−−−−−−T′3T′2Loss0/112T33′T′1MASKSKSKOMASKOMASKS KSKEKDense + Activation(Gelu) + Normalization 0.08
英語(論文から抽出)日本語訳スコア
EXPERIMENTAL RESULTS ON DOWNSTREAM TASKS ACCORDING TO DIFFERENT PORTION OF WORD ORDER PREDICTION TASKS 語順予測課題の異なる部分による下流課題の実験結果 0.41
TABLE I Portion of WOP テーブルI WOPのポーション 0.62
100 % 50 % 30 % 100 % 50 % 30 % 0.85
KorNLI acc 76.8 76.4 76.6 コルンリ acc 76.8 76.4 76.6 0.47
KorSTS spearman KorSTSのスピアマン 0.69
74.8 76.6 75.4 74.8 76.6 75.4 0.47
NSMC acc 88.3 88.3 88.4 NSMC acc 88.3 88.3 88.4 0.69
PD acc 92.3 92.7 93.2 PD acc 92.3 92.7 93.2 0.59
NER acc 80.6 81.2 80.7 NER acc 80.6 81.2 80.7 0.59
KorQuAD1.0 KorQuAD1.0 0.47
f1 89.4 89.3 89.8 f1 89.4 89.3 89.8 0.49
EXPERIMENTAL RESULTS ON DOWNSTREAM TASK PERFORMANCE COMPARING BETWEEN DIFFERENT COMBINATION OF PRETRAINING OBJECTIVES 学習目標の異なる組み合わせ間でのダウンストリームタスク性能の比較実験結果 0.58
TABLE II Objectives MLM + SOP MLM + SOP + WOP MLM + WOP テーブルII 目的 MLM + SOP MLM + SOP + WOP MLM + WOP。 0.72
MLM SOP WOP acc acc 35.335.1 35.6 MLM SOP WOP acc 35.335.1 35.6 0.71
acc 79.8 79.1 acc 79.8 79.1 0.59
80.7 84.0 - 80.7 84.0 - 0.68
KorNLI acc 76.4 76.9 76.8 コルンリ acc 76.4 76.9 76.8 0.47
KorSTS spearman KorSTSのスピアマン 0.69
75.6 76.6 73.3 75.6 76.6 73.3 0.47
NSMC acc 88.6 88.4 88.5 NSMC acc 88.6 88.4 88.5 0.69
PD acc 92.9 93.2 92.3 PD acc 92.9 93.2 92.3 0.59
NER acc 80.7 81.2 81.0 NER acc 80.7 81.2 81.0 0.59
KorQuAD1.0 KorQuAD1.0 0.47
f1 89.5 89.8 89.3 f1 89.5 89.8 89.3 0.49
EXPERIMENTAL RESULTS ON DOWNSTREAM TASKS AND MODEL PARAMETERS ダウンストリームタスクとモデルパラメータに関する実験結果 0.64
TABLE III Model テーブルIII モデル 0.72
Params Speedup パラメータ スピードアップ 0.58
Multilingual BERT XLM-R KoBERT ETRI BERT KoreALBERT Base KoreALBERT Large マルチリンガルBERT XLM-R KoBERT ETRI BERT KorealBERT Base KorealBERT Large 0.75
172M 270M 92M 110M 12M 18M 172M 270M 92M 110M 12M 18M 0.63
1.0 0.5x 1.2x 1.00.5x1.2x 0.40
- 5.7x 1.3x - 5.7x 1.3x 0.62
KorNLI acc 76.8 80.0 78.3 79.5 79.7 81.1 コルンリ acc 76.8 80.0 78.3 79.5 79.7 81.1 0.44
KorSTS spearman KorSTSのスピアマン 0.69
77.8 79.4 79.2 80.5 81.2 82.1 77.8 79.4 79.2 80.5 81.2 82.1 0.43
NSMC acc 87.5 90.1 90.1 88.8 89.6 89.7 NSMC acc 87.5 90.1 90.1 88.8 89.6 89.7 0.66
PD acc 91.1 92.6 91.1 93.9 93.8 94.1 PD acc 91.1 92.6 91.1 93.9 93.8 94.1 0.50
NER acc 80.3 83.9 82.1 82.5 82.3 83.7 NER acc 80.3 83.9 82.1 82.5 82.3 83.7 0.50
KorQuAD1.0 KorQuAD1.0 0.47
f1 86.5 92.3 90.3 94.1 92.6 94.5 f1 86.5 92.3 90.3 94.1 92.6 94.5 0.45
Avg. 83.3 86.4 85.2 86.6 86.5 87.5 Avg。 83.3 86.4 85.2 86.6 86.5 87.5 0.60
BERT6, XLM-R from Facebook AI Research7, KoBERT8, and ETRI BERT9. BERT6、Facebook AI Research7、KoBERT8、ETRI BERT9のXLM-R。 0.76
We optimize respective hyperparameters for each pretrained model before measuring the best and average scores for each model. 各モデルのベストスコアと平均スコアを計測する前に,事前学習したモデルごとにハイパーパラメータを最適化する。 0.71
For all models, we use a batch size of 64 or 128 and from 3 to 5 epochs with a learning rate from 2.0×10−5 to 5.0×10−5 and a max-sequence length from 128 to 512. すべてのモデルでは、バッチサイズは64または128で、3から5エポック、学習レートは2.0×10−5から 5.0×10−5、最大シーケンス長は128から512である。 0.67
For NER task, we have found out that longer training epochs tend to work better and fine-tuned up to 7 epochs. NERタスクでは、より長いトレーニングエポックがよりうまく機能し、最大7エポックまで微調整されることが分かりました。 0.58
2) Downstream Tasks: We consider six downstream NLP 2)下流タスク:6つの下流NLPを考える 0.81
tasks detailed below. • KorNLI: Korean NLU Dataset 詳細は下記の通り •KorNLI:韓国のNLUデータセット 0.69
includes two downstream tasks. 下流の2つのタスクを含む。 0.50
In Korean Natural Language Inference (KorNLI) [30], the input is a pair of sentences, a premise and a hypothesis. 韓国の自然言語推論(KorNLI)[30]では、入力は文と前提と仮説のペアである。 0.60
The fine-tuned model should predict their relationship in one of the three possible labels: entailment, contradiction, and neutral. 微調整されたモデルは、3つの可能なラベルのうちの1つで関係を予測するべきです。 0.58
KorNLI has a total of 950,354 examples. KorNLIには合計950,354の例がある。 0.69
• KorSTS: the second task from Korean NLU is semantic textual similarity (STS) for Korean language. • korsts: 韓国語nluの2番目のタスクは、韓国語用意味テキスト類似性(sts)です。 0.63
STS requires to predict how semantically similar the two input sentences are on a 0 (dissimilar) to 5 (equivalent) scale. STSは、2つの入力文が0(類似)から5(等価)スケールで意味的に類似しているかを予測する必要がある。 0.73
There are 8,628 KorSTS examples in the Korean NLU dataset. 韓国nluデータセットには8,628のkorstsの例がある。 0.52
• Sentiment analysis: we use Naver Sentiment Movie Corpus,10 (NSMC) the biggest Korean movie review dataset, which is collected by the same method that the massive movie review dataset [31] proposes. ・感性分析:大韓民国最大の映画レビューデータセットであるNover Sentiment Movie Corpus,10(NSMC)を、大韓民国映画レビューデータセット[31]が提案する方法と同じ方法で収集する。 0.77
NSMC consists of 200k reviews of shorter than 140 characters that are labeled with human annotations of sentiment. NSMCは、感情の人間の注釈でラベル付けされた140文字未満の200kレビューで構成されています。 0.62
• Paraphrase detection (PD): a PD model predicts whether or not a pair of sentences are semantically equivalent. •パラフレーズ検出(PD): PDモデルは、文のペアが意味的に等価かどうかを予測します。 0.80
The dataset we consider contains 7,576 examples from a publicly available github repository.11 私たちが考慮しているデータセットには、公開のgithubリポジトリから7,576のサンプルが含まれています。 0.38
• Extractive machine reading comprehension (EMRC): EMRC takes in much longer text sequences as an input compared to other tasks. ^ Extractive Machine Read comprehension (EMRC): EMRCは、他のタスクよりも長いテキストシーケンスを入力として取り込む。 0.75
The EMRC model needs to extract the start and end indices inside a paragraph containing the answer of a question. EMRCモデルは、質問の回答を含むパラグラフ内の開始と終了のインデックスを抽出する必要があります。 0.79
KorQuAD 1.0 [32] is a Korean dataset for machine reading comprehension, which is similar to SQuAD 1.0 [7]. KorQuAD 1.0 [32]は、SQuAD 1.0 [7]に似た機械読解のための韓国語データセットである。 0.76
Having exactly the same format as SQuAD, KorQuAD 1.0 comprises 60,407 question-answer pairs. KorQuAD 1.0はSQuADとまったく同じフォーマットで、60,407の質問回答ペアで構成されています。 0.53
• Named entity recognition (NER): NER distinguishes a real-world object such as a person, organization, and place (location) from documents. • 名前付きエンティティ認識(NER): NERは、人、組織、場所(場所)などの現実世界のオブジェクトを文書から区別します。 0.86
We use the NER corpus12 constructed by Naver Corp. and Changwon University in South Korea. 韓国のNaver Corp.とChangwon Universityが製造したNERコーパス12を使用している。 0.67
The corpus has 14 different types コーパスには14種類のタイプがあります 0.53
6https://github.com/ google-research/bert 7https://github.com/ facebookresearch/XLM 8https://github.com/ SKTBrain/KoBERT 9http://aiopen.etri. re.kr/service dataset.php 6https://github.com/ google-research/bert 7https://github.com/ facebookresearch/XLM 8https://github.com/ SKTBrain/KoBERT 9http://aiopen.etri. re.kr/service dataset.php 0.29
10https://github.com /e9t/nsmc 11https://github.com /songys/Question pair 12http://air.changwo n.ac.kr/?page id=10 10https://github.com /e9t/nsmc 11https://github.com /songys/Question pair 12http://air.changwo n.ac.kr/?page id=10 0.36
英語(論文から抽出)日本語訳スコア
of entities with attached tags B/I/-, denoting multi- or single-word entities as described in Table IV. 表IVに示すように、添付タグB/I/-を持つエンティティのマルチまたはシングルワードエンティティを表します。 0.60
tokens to be shuffled instead of fixed proportion. 固定比率の代わりにシャッフルされるトークン。 0.61
We also plan to investigate how well the proposed WOP loss works with non-agglutinative languages like English. また、提案されたWOP損失が英語のような非凝集言語でどのように機能するかを調査する予定です。 0.54
PROPORTION OF THE TYPE OF ENTITIES OF NER DATASET. nerデータセットのエンティティタイプの割合。 0.20
TABLE IV Category NUMBER CIVILIZATION PERSON ORGANIZATION DATE TERM LOCATION EVENT ANIMAL ARTIFACTS WORKS TIME FIELD PLANT MATERIAL テーブルIV アニマルアーティファクトワークスタイムフィールド植物材料におけるカテゴリ番号可視化パーソン組織化日付位置推定 0.59
Tag NUM CVL PER ORG DAT TRM LOC EVT ANM AFW TIM FLD PLT MAT タグ番号CVLperORG DAT TRM LOC EVT ANM AFW TIM FLD PLT MAT 0.69
Amount 64,876 60,918 48,321 45,550 33,944 22,070 21,095 17,430 6,544 6,069 4,337 2,386 267 252 Amount 64,876 60,918 48,321 45,550 33,944 22,070 21,095 17,430 6,544 6,069 4,337 2,386 267 252 0.47
E. Discussion As indicated in Table III, KoreALBERT consistently outperforms M-BERT over all downstream NLU tasks considered. E. 議論 表IIIに示すように、KoreALBERTは、考慮されたすべての下流NLUタスクに対してM-BERTを一貫して上回る。 0.62
While KoreABLERT has the smallest number of model parameters among all monolingual and multilingual language models compared in this paper, it achieves better results in almost all downstream evaluations. koreablertは,単言語および多言語モデルの中で,最少のモデルパラメータを持つが,下流評価のほぼすべてにおいて,より優れた結果が得られる。 0.82
The advantage of having fewer computations of KoreALBERT makes its base model about 5.7 faster than M-BERT and its large model 2.2 faster than XLM-R base at training time. KoreALBERTの計算量が少ないという利点は、ベースモデルをM-BERTより5.7倍、トレーニング時にXLM-Rベースより2.2倍速くする。 0.73
In NSMC and NER, which are single-sentence classification tasks, KoreALBERT is subpar against XLM-R and KoBERT. 単文分類タスクであるNSMCとNERでは、PruALBERTはXLM-RとKoBERTに比例する。 0.73
For NSMC, KoreALBERT-large cannot produce more discriminnative result than the base model. NSMCでは、KorealBERT-largeはベースモデルよりも差別的な結果を生み出すことができない。 0.58
We suspect the main reason for the performance drop being lack of covering the colloquial usage of words and phrases in our pretraining corpora that mostly consists of more formal style of writings such as news articles and wikipedia. パフォーマンス低下の主な理由は、主にニュース記事やwikipediaのようなより形式的なスタイルからなる、トレーニング済みのコーパスにおける単語やフレーズの口語的使用をカバーできないためだと思います。 0.72
Examples in NSMC seem to use much colloquialism. NSMCの例では、多くの口語主義を使用しているようである。 0.49
Also, XLM-R has shown a very good performance on the NER task. また、XLM-RはNERタスクで非常に良いパフォーマンスを示しています。 0.71
Such result is due to the fact that NER does not require much high-level language understanding like multi-sentence discourse coherence. この結果は、NERが多文会話コヒーレンスのような高レベルの言語理解をあまり必要としていないためである。 0.68
V. CONCLUSION V.コンキュレーション 0.76
We have introduced KoreALBERT, a pre-trained monolingual ALBERT model for Korean language understanding. 韓国語理解のための学習済み単言語ALBERTモデルであるPuleALBERTを紹介した。 0.66
We have described the details about training KoreALBERT. KoreALBERTのトレーニングについて詳述した。 0.65
In particular, we have proposed a word order prediction loss, a new training objective, which is compatible with the original MLM and SOP objectives of ALBERT. 特に,ALBERT の本来の MLM と SOP の目標に適合する新たな学習目標である,単語順予測損失を提案する。 0.68
KoreALBERT consistently outperforms multi and monolingual baselines on 6 downstream NLP tasks while having much fewer parameters. KoreALBERTは一貫して6つの下流のNLPタスクのマルチおよびモノリンガルベースラインを上回り、パラメータをはるかに少なくします。 0.59
In our future work, we plan to experiment more comprehensively with the KoreALBERT WOP loss: i) replace token-level switching with word-level switching to improve the difficulty of label prediction; ii) use dynamic token shuffling with varying amount of 今後の研究では、PuleALBERT WOP損失をより包括的に実験する計画である:i) ラベル予測の難しさを改善するために、トークンレベルの切替をワードレベルの切替に置き換える;i) 様々な量の動的トークンシャッフルを使用する。 0.69
REFERENCES [1] I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” CoRR, vol. 参考 [1] I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence Learning with neural Network”, CoRR, vol。 0.69
abs/1409.3215, 2014. abs/1409.3215, 2014 0.69
[Online]. Available: http://arxiv.org/abs /1409.3215 [オンライン] http://arxiv.org/abs /1409.3215 0.54
[2] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. u. Kaiser, and I. Polosukhin, “Attention is all you need,” in Advances in Neural Information Processing Systems 30, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, Eds. [2] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N. Gomez, L. U. Kaiser, I. Polosukhin, "Atention is all you need" in Advances in Neural Information Processing Systems 30, I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett, Eds. 0.96
Curran Associates, Inc., 2017, pp. Curran Associates, Inc., 2017, pp。 0.82
5998–6008. 5998–6008. 0.71
[Online]. Available: http://papers.nips.c c/paper/7181-attenti on-is-all-you-need.p df [オンライン] http://papers.nips.c c/paper/7181-attenti on-is-you- needed.pdf 0.47
[3] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding,” arXiv preprint arXiv:1810.04805, 2018. J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, “Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding”, arXiv preprint arXiv:1810.04805, 2018. 0.94
[4] W. L. Taylor, “Cloze Procedure: a New Tool for Measuring Readability,” 4] W.L. Taylor, "Cloze procedure: a new Tool for Measuring Readability" 0.81
Journalism Quarterly, vol. 新聞「ジャーナリズム・クォータリー」。 0.49
30, no. 4, pp. 30だ 4, pp。 0.58
415–433, 1953. 415–433, 1953. 0.84
[5] A. Wang, A. Singh, J. Michael, F. Hill, O. 5] A. Wang、A. Singh、J. Michael、F. Hill、O。 0.89
Levy, and S. Bowman, “Glue: A multi-task benchmark and analysis platform for natural language understanding,” Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, 2018. Levy, and S. Bowman, “Glue: a multi-task benchmark and analysis platform for natural language understand” – 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, 2018の成果。 0.88
[Online]. Available: http://dx.doi.org/10 .18653/v1/w18-5446 [オンライン] http://dx.doi.org/10 .18653/v1/w18-5446 0.47
[6] A. Williams, N. Nangia, and S. Bowman, “A broad-coverage challenge corpus sentence understanding through inference,” Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2018. A. Williams, N. Nangia, and S. Bowman, “A wide-coverage Challenge corpus sentence understanding through inference”, 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2018. 0.79
[Online]. Available: http://dx.doi.org/10 .18653/v1/N18-1101 [オンライン] http://dx.doi.org/10 .18653/v1/n18-1101 0.47
[7] P. Rajpurkar, J. Zhang, K. Lopyrev, and P. Liang, “Squad: 100, text,” CoRR, vol. 7] P. Rajpurkar, J. Zhang, K. Lopyrev, P. Liang, “Squad: 100, text”, CoRR, vol。 0.82
000+ questions for machine comprehension of abs/1606.05250, 2016. abs/1606.05250の機械理解のための000+質問、2016。 0.54
[Online]. Available: http://arxiv.org/abs /1606. [オンライン] 利用可能: http://arxiv.org/abs /1606。 0.57
05250 [8] P. Rajpurkar, R. Jia, and P. Liang, “Know what you don’t know: Unanswerable questions for squad,” Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2018. 05250 P. Rajpurkar, R. Jia, P. Liang, “Know what you don’t know: Unanswerable questions for squad”, Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2018”. 2018年3月1日閲覧。 0.87
[Online]. Available: http://dx.doi.org/10 .18653/v1/ P18-2124 [オンライン] 利用可能: http://dx.doi.org/10 .18653/v1/P18-2124 0.49
[9] E. F. Tjong Kim Sang and F. De Meulder, “Introduction to the the seventh conference on language learning at HLT-NAACL 2003 -, 2003. 9] E.F. Tjong Kim SangとF.De Meulderは、「HLT-NAACL 2003 - 2003で言語学習に関する第7回会議への導入。 0.91
[Online]. conll-2003 shared task,” Proceedings of Natural Available: http://dx.doi.org/10 .3115/1119176.111919 5 [オンライン] conll-2003 shared task” proceedings of natural available: http://dx.doi.org/10 .3115/1119176.11195 0.60
for [10] G. Lai, Q. Xie, H. Liu, Y. Yang, ですから [10] G. Lai, Q. Xie, H. Liu, Y. Yang, 0.75
“RACE: Large-scale ReAding comprehension dataset from examinations,” in Proceedings of in Natural Language Processing. ReAding comprehension dataset from examinations”. Proceedings of Natural Language Processing. (RACE: Large-scale ReAding comprehension dataset from examinations) 0.72
Copenhagen, Denmark: Association for Computational Linguistics, Sep. 2017, pp. Copenhagen, Denmark: Association for Computational Linguistics, Sep. 2017, pp. 0.91
785–794. [Online]. 785–794. [オンライン] 0.69
Available: https://www.aclweb.o rg/anthology/D17-108 2 https://www.aclweb.o rg/anthology/d17-108 2 0.33
the 2017 Conference on Empirical Methods 実証的手法に関する2017年会議 0.77
and E. Hovy, [11] Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, and R. Soricut, “Albert: A Lite BERT for Self-supervised Learning of Language Representations,” arXiv preprint arXiv:1909.11942, 2019. とE. Hovy。 11] Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, R. Soricut, “Albert: A Lite BERT for Self-supervised Learning of Language Representations” arXiv preprint arXiv:1909.11942, 2019。 0.87
[12] Y. Liu, M. Ott, N. Goyal, J. 12] Y. Liu、M. Ott、N. Goyal、J。 0.87
Du, M. Joshi, D. Chen, O. Du, M. Joshi, D. Chen, O。 0.96
Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov, “Roberta: A robustly optimized BERT pretraining approach,” CoRR, vol. Levy, M. Lewis, L. Zettlemoyer, V. Stoyanov, “Roberta: 堅牢に最適化されたBERT事前学習アプローチ”, CoRR, vol。 0.86
abs/1907.11692, 2019. Abs/1907.11692, 2019 0.65
[Online]. Available: http://arxiv.org/abs /1907.11692 [オンライン] http://arxiv.org/abs /1907.11692 0.54
[13] M. Joshi, D. Chen, Y. Liu, D. S. Weld, L. Zettlemoyer, and O. 13] M. Joshi、D. Chen、Y. Liu、D.S. Weld、L. Zettlemoyer、およびO。 0.87
Levy, Improving pre-training by representing and predicting [Online]. レビ、[オンライン]の表現と予測による事前トレーニングの改善。 0.55
Available: abs/1907.10529, 2019. 利用可能。 Abs/1907.10529, 2019 0.56
“Spanbert: spans,” CoRR, vol. CoRR, vol. “Spanbert: spans”。 0.80
http://arxiv.org/abs /1907.10529 http://arxiv.org/abs /1907.10529 0.34
[14] Y. Cui, W. Che, T. Liu, B. Qin, Z. Yang, S. Wang, and G. Hu, “Pre-training with whole word masking for chinese BERT,” CoRR, vol. Y. Cui, W. Che, T. Liu, B. Qin, Z. Yang, S. Wang, G. Hu, “Pre-training with whole word masking for Chinese BERT”, CoRR, vol. 0.87
abs/1906.08101, 2019. Abs/1906.08101, 2019 0.65
[Online]. Available: http://arxiv.org/abs /1906. [オンライン] 利用可能: http://arxiv.org/abs /1906。 0.57
08101 [15] Z. Yang, Z. Dai, Y. Yang, J. G. Carbonell, R. Salakhutdinov, and Q. V. Le, “Xlnet: Generalized autoregressive pretraining for language understanding,” CoRR, vol. 08101 15] Z. Yang, Z. Dai, Y. Yang, J.G. Carbonell, R. Salakhutdinov, Q.V. Le, “Xlnet: Generalized Autoregressive pretraining for Language understanding”, CoRR, vol. 。 0.88
abs/1906.08237, 2019. Abs/1906.08237, 2019 0.66
[Online]. Available: http://arxiv.org/abs /1906.08237 [オンライン] http://arxiv.org/abs /1906.08237 0.54
[16] K. K, Z. Wang, S. Mayhew, and D. Roth, “Cross-lingual ability of 16] K. K. Z. Wang, S. Mayhew, D. Roth, “Cross-lingual ability of” 0.89
multilingual bert: An empirical study,” 2019. 多言語のバート:実証的な研究」、2019。 0.56
[17] A. Conneau, K. Khandelwal, N. Goyal, V. Chaudhary, G. Wenzek, F. Guzm´an, E. Grave, M. Ott, L. Zettlemoyer, and V. Stoyanov, “Unsupervised cross-lingual representation learning at scale,” 2019. 17] A. Conneau, K. Khandelwal, N. Goyal, V. Chaudhary, G. Wenzek, F. Guzm ́an, E. Grave, M. Ott, L. Zettlemoyer, V. Stoyanov, “Unsupervised cross-lingual representation learning at scale” 2019。 0.91
英語(論文から抽出)日本語訳スコア
[18] H. Le, L. Vial, J. Frej, V. Segonne, M. Coavoux, B. Lecouteux, A. Allauzen, B. Crabb´e, L. Besacier, and D. Schwab, “Flaubert: Unsupervised language model pre-training for french,” 2019. 18] H. Le, L. Vial, J. Frej, V. Segonne, M. Coavoux, B. Lecouteux, A. Allauzen, B. Crabb ́e, L. Besacier, D. Schwab, “Flaubert: Unsupervised language model pre-training for french” 2019。 0.93
[19] L. Martin, B. Muller, P. J. O. Su´arez, Y. Dupont, L. Romary, ´Eric Villemonte de la Clergerie, D. Seddah, and B. Sagot, “Camembert: a tasty french language model,” 2019. [19] L. Martin, B. Muller, P. J. O. Su ́arez, Y. Dupont, L. Romary, ́Eric Villemonte de la Clergerie, D. Seddah, B. Sagot, “Camembert: a delicious French language model” 2019。 0.95
[20] M. Polignano, P. Basile, M. de Gemmis, G. Semeraro, and V. Basile, “Alberto: Italian bert language understanding model for nlp challenging tasks based on tweets,” 11 2019. M. Polignano, P. Basile, M. de Gemmis, G. Semeraro, V. Basile, “Alberto: Italian bert language understanding model for nlp challenge task based on tweet”. 2019年11月11日閲覧。 0.88
[21] W. Vries, A. Cranenburgh, A. Bisazza, T. Caselli, G. van Noord, and 21] W. Vries, A. Cranenburgh, A. Bisazza, T. Caselli, G. van Noord 0.89
M. Nissim, “Bertje: A dutch bert model,” 12 2019. M. Nissim, “Bertje: A dutch bert model”. 2019年12月12日閲覧。 0.80
[22] A. Virtanen, J. Kanerva, R. Ilo, J. Luoma, J. Luotolahti, T. Salakoski, F. Ginter, and S. Pyysalo, “Multilingual is not enough: Bert for finnish,” 12 2019. 22] a. virtanen, j. kanerva, r. ilo, j. luoma, j. luotolahti, t. salakoski, f. ginter, s. pyysalo, “multilingual is not enough: bert for finnish”. 2019年12月12日閲覧。 0.76
[23] S. Park, J. Byun, S. Baek, Y. Cho, and A. Oh, “Subword-level word 23] S. Park, J. Byun, S. Baek, Y. Cho, A. Oh, “subword-level words” 0.89
vector representations for korean,” 01 2018, pp. 韓国語用ベクトル表現』01 2018, pp。 0.56
2429–2438. 2429–2438. 0.71
[24] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. 24] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O。 0.95
Levy, V. Stoyanov, and L. Zettlemoyer, “Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension,” 2019. Levy, V. Stoyanov, L. Zettlemoyer, “Bart: Denoising sequence-to-Sequence pre-training for natural language generation, translation, and comprehension” 2019年。 0.91
[25] D. Hendrycks 25] D. Hendrycks 0.80
and linear units,” CoRR, stochastic regularizers with gaussian error vol. そして線形単位”は、ガウス誤差を伴う確率正規化器だ。 0.61
abs/1606.08415, 2016. abs/1606.08415, 2016 0.68
[Online]. Available: http://arxiv.org/abs / 1606.08415 [オンライン] http://arxiv.org/abs / 1606.08415 0.57
and K. Gimpel, そしてK.Gimpel。 0.71
nonlinearities “Bridging [26] J. J. 非線形 「ブログ」 [26]J.J. 0.67
Song, “The korean language:structure, use and context,” Routledge, Song, “The korean Language:structure, use and context”, Routledge, 0.79
2006. [27] Y. 2006. [27] Y。 0.80
You, J. Li, J. Hseu, X. あなた、J.Li、J.Hseu、X。 0.82
Song, J. Demmel, and C. Hsieh, “Reducing BERT pre-training time from 3 days to 76 minutes,” CoRR, vol. Song, J. Demmel, C. Hsieh, "Reduce BERT pre-training time from 3 days to 76 minutes", CoRR, vol。 0.81
abs/1904.00962, 2019. Abs/1904.00962, 2019 0.65
[Online]. Available: http://arxiv.org/abs /1904. [オンライン] 利用可能: http://arxiv.org/abs /1904。 0.57
00962 [28] T. Wolf, L. Debut, V. Sanh, J. Chaumond, C. Delangue, A. Moi, P. Cistac, T. Rault, R. Louf, M. Funtowicz, and J. 00962 T. Wolf, L. Debut, V. Sanh, J. Chaumond, C. Delangue, A. Moi, P. Cistac, T. Rault, R. Louf, M. Funtowicz, J. 0.89
Brew, “Huggingface’s transformers: State-of-the-art natural language processing,” ArXiv, vol. Brew, “Huggingface’s transformer: State-of-the-art natural language processing”, ArXiv, vol。 0.87
abs/1910.03771, 2019. Abs/1910.03771, 2019 0.63
[29] T. Kudo and J. Richardson, “Sentencepiece: A simple and language independent text processing,” CoRR, vol. [29] t. kudoとj. richardsonは、”sentencepiece: a simple and language independent text processing”と書いている。 0.78
abs/1808.06226, 2018. abs/1808.06226, 2018 0.61
[Online]. Available: http://arxiv.org/abs /1808.06226 [オンライン] http://arxiv.org/abs /1808.06226 0.53
subword tokenizer and detokenizer subword tokenizer と detokenizer 0.84
for neural [30] J. Ham, Y. J. Choe, K. Park, I. Choi, and H. Soh, “Kornli and korsts: New benchmark datasets for korean natural language understanding,” arXiv preprint arXiv:2004.03289, 2020. 神経には 30] J. Ham, Y. J. Choe, K. Park, I. Choi, H. Soh, "Kornli and korsts: New benchmark datasets for korean natural language understanding" arXiv preprint arXiv:2004.03289, 2020. 0.80
[31] A. L. Maas, R. E. Daly, P. T. Pham, D. Huang, A. Y. Ng, and C. Potts, “Learning word vectors for sentiment analysis,” in Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. A. L. Maas, R. E. Daly, P. T. Pham, D. Huang, A. Y. Ng, C. Potts, “Learning word vectors for sentiment analysis” in Proceedings of the49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies。 0.88
Portland, Oregon, USA: Association for Computational Linguistics, Jun. オレゴン州ポートランド:計算言語学協会(association for computational linguistics, jun)。 0.69
2011, pp. 142–150. 2011年、p。 142–150. 0.75
[Online]. Available: https://www.aclweb.o rg/anthology/P11-101 5 [オンライン] https://www.aclweb.o rg/anthology/p11-101 5 0.50
[32] M. K. L. Seungyoung Lim, “KorQuAD: Korean QA Dataset for Machine Comprehension,” Journal of Computing Science and Engineering, vol. 32] M.K.L. Seungyoung Lim, “KorQuAD: Korea QA Dataset for Machine Comprehension”, Journal of Computing Science and Engineering, vol。
訳抜け防止モード: [32 ]M. K. L. Seungyoung Lim, “KorQuAD : Korean QA dataset for Machine Comprehension” Journal of Computing Science and Engineering, vol. (英語)
0.93
[Online]. Available: http: //www.dbpia.co.kr/jo urnal/articleDetail? nodeId=NODE07613668 [オンライン] http: //www.dbpia.co.kr/jo urnal/articledetail? nodeid=node07613668 0.53
, pp. 539–541, 2018. pp。 539–541, 2018. 0.68
               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。