論文の概要: DPRK-BERT: The Supreme Language Model
- arxiv url: http://arxiv.org/abs/2112.00567v1
- Date: Wed, 1 Dec 2021 15:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 17:32:46.691829
- Title: DPRK-BERT: The Supreme Language Model
- Title(参考訳): DPRK-BERT: 最高言語モデル
- Authors: Arda Akdemir and Yeojoo Jeon
- Abstract要約: 本研究では、DPRK言語のための最初のディープ言語モデルであるDPRK-BERTを提案する。
我々は、DPRK言語のための最初のラベル付きコーパスをコンパイルし、既存のROK言語モデルを微調整することで、これを実現する。
また、このモデルの言語間バージョンを提示し、2つの韓国語をまたいだより優れた一般化をもたらす。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep language models have achieved remarkable success in the NLP domain. The
standard way to train a deep language model is to employ unsupervised learning
from scratch on a large unlabeled corpus. However, such large corpora are only
available for widely-adopted and high-resource languages and domains. This
study presents the first deep language model, DPRK-BERT, for the DPRK language.
We achieve this by compiling the first unlabeled corpus for the DPRK language
and fine-tuning a preexisting the ROK language model. We compare the proposed
model with existing approaches and show significant improvements on two DPRK
datasets. We also present a cross-lingual version of this model which yields
better generalization across the two Korean languages. Finally, we provide
various NLP tools related to the DPRK language that would foster future
research.
- Abstract(参考訳): ディープ言語モデルはNLPドメインで顕著な成功を収めた。
深層言語モデルをトレーニングする標準的な方法は、教師なし学習をスクラッチから大きなラベルなしコーパスに採用することである。
しかし、そのような大きなコーパスは広く採用され、高いリソースを持つ言語やドメインでしか利用できない。
本研究では、DPRK言語のための最初のディープ言語モデルであるDPRK-BERTを提案する。
我々は、dprk言語の最初のラベルなしコーパスをコンパイルし、既存のrok言語モデルを微調整することでこれを達成する。
提案モデルと既存手法を比較し,2つのDPRKデータセットの大幅な改善を示す。
また、このモデルの言語間バージョンを提示し、2つの韓国語に対してより良い一般化をもたらす。
最後に,今後の研究を促進するために,DPRK言語に関連するさまざまなNLPツールを提供する。
関連論文リスト
- A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili [29.252250069388687]
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
論文 参考訳(メタデータ) (2024-03-26T17:26:50Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - KR-BERT: A Small-Scale Korean-Specific Language Model [0.0]
韓国固有のKR-BERTモデルを,より小さな語彙とデータセットを用いて訓練した。
本モデルでは, コーパスを約1/10のサイズのコーパスを用いて, 既存の事前学習モデルと比較し, 比較検討を行った。
論文 参考訳(メタデータ) (2020-08-10T09:26:00Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。