論文の概要: Transformer-based Korean Pretrained Language Models: A Survey on Three
Years of Progress
- arxiv url: http://arxiv.org/abs/2112.03014v1
- Date: Thu, 25 Nov 2021 16:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-12 17:50:24.040275
- Title: Transformer-based Korean Pretrained Language Models: A Survey on Three
Years of Progress
- Title(参考訳): トランスフォーマーに基づく韓国事前訓練言語モデル:3年間の進歩に関する調査
- Authors: Kichang Yang
- Abstract要約: 過去3年間で、朝鮮語に特化した様々な事前訓練言語モデルが出現している。
本稿では,韓国の様々なPLMを一般向けに公開し,数値的,質的に比較し,分析する。
- 参考スコア(独自算出の注目度): 0.190365714903665
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the advent of Transformer, which was used in translation models in 2017,
attention-based architectures began to attract attention. Furthermore, after
the emergence of BERT, which strengthened the NLU-specific encoder part, which
is a part of the Transformer, and the GPT architecture, which strengthened the
NLG-specific decoder part, various methodologies, data, and models for learning
the Pretrained Language Model began to appear. Furthermore, in the past three
years, various Pretrained Language Models specialized for Korean have appeared.
In this paper, we intend to numerically and qualitatively compare and analyze
various Korean PLMs released to the public.
- Abstract(参考訳): 2017年に翻訳モデルで使用されたトランスフォーマーが登場し、注意に基づくアーキテクチャが注目を集め始めた。
さらに、トランスフォーマーの一部であるNLU固有のエンコーダ部を強化したBERTや、NLG固有のデコーダ部を強化したGPTアーキテクチャが出現すると、事前訓練された言語モデルを学ぶための様々な方法論、データ、モデルが出現し始めた。
さらに、過去3年間で、朝鮮語に特化した様々な事前訓練言語モデルが登場した。
本稿では,韓国の様々なPLMを一般向けに公開し,数値的,質的に比較・分析する。
関連論文リスト
- A Family of Pretrained Transformer Language Models for Russian [31.1608981359276]
本稿では、エンコーダ(ruBERT, ruRoBERTa, ruELECTRA)、デコーダ(ruGPT-3)、エンコーダ-デコーダ(ruT5, FRED-T5)にまたがる13個のロシアトランスフォーマーLMのコレクションを紹介する。
本稿では, モデルアーキテクチャの設計と事前学習について報告し, それらの一般化能力をロシア語理解および生成データセットおよびベンチマーク上で評価した結果について述べる。
論文 参考訳(メタデータ) (2023-09-19T21:07:52Z) - Knowledge Distillation of Transformer-based Language Models Revisited [74.25427636413067]
大規模なモデルサイズと高いランタイムレイテンシは、実際にトレーニング済みの言語モデルを適用する上で深刻な障害となります。
変圧器モデルのための統合知識蒸留フレームワークを提案する。
実験結果から,プレトレイン言語モデルの蒸留に光を当て,従来のSOTA(State-of-the-arts)に比べて相対的に改善した。
論文 参考訳(メタデータ) (2022-06-29T02:16:56Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Improving Large-scale Language Models and Resources for Filipino [0.0]
フィリピン語のための大規模事前学習コーパスであるTLUnifiedデータセットの構築について概説する。
第2に,RoBERTa事前学習法に従って,新しいトランスフォーマー言語モデルを事前訓練し,小型コーパスで訓練した既存モデルを置き換える。
我々の新しいRoBERTaモデルは、テスト精度が平均4.47%向上した3つのベンチマークデータセットにおいて、既存のフィリピンモデルよりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2021-11-11T05:00:58Z) - Recent Advances in Natural Language Processing via Large Pre-Trained
Language Models: A Survey [67.82942975834924]
BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。
本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
論文 参考訳(メタデータ) (2021-11-01T20:08:05Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Information Extraction from Swedish Medical Prescriptions with
Sig-Transformer Encoder [3.7921111379825088]
本稿では,自己アテンションモデルにシグネチャ変換を組み込むことにより,トランスフォーマーアーキテクチャの新たな拡張を提案する。
スウェーデンの新しい処方薬データの実験では、3つの情報抽出タスクのうち2つにおいて提案されたアーキテクチャが優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-10T04:22:07Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z) - Testing pre-trained Transformer models for Lithuanian news clustering [0.0]
英語以外の言語は、英語の事前訓練されたモデルでそのような新しい機会を活用できなかった。
我々は、リトアニア語ニュースクラスタリングのタスクの符号化として、事前訓練された多言語BERT、XLM-R、および古い学習テキスト表現法を比較した。
この結果から, 単語ベクトルを超えるように微調整できるが, 特別な訓練を施した doc2vec 埋め込みよりもはるかに低いスコアが得られた。
論文 参考訳(メタデータ) (2020-04-03T14:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。