論文の概要: LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization
- arxiv url: http://arxiv.org/abs/2108.00801v2
- Date: Tue, 3 Aug 2021 06:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 11:07:52.832390
- Title: LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization
- Title(参考訳): licHEE:多粒化による言語モデル事前学習の改善
- Authors: Weidong Guo, Mingjun Zhao, Lusheng Zhang, Di Niu, Jinwen Luo, Zhenhua
Liu, Zhenyang Li and Jianbo Tang
- Abstract要約: 本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
- 参考スコア(独自算出の注目度): 19.89228774074371
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language model pre-training based on large corpora has achieved tremendous
success in terms of constructing enriched contextual representations and has
led to significant performance gains on a diverse range of Natural Language
Understanding (NLU) tasks. Despite the success, most current pre-trained
language models, such as BERT, are trained based on single-grained
tokenization, usually with fine-grained characters or sub-words, making it hard
for them to learn the precise meaning of coarse-grained words and phrases. In
this paper, we propose a simple yet effective pre-training method named LICHEE
to efficiently incorporate multi-grained information of input text. Our method
can be applied to various pre-trained language models and improve their
representation capability. Extensive experiments conducted on CLUE and
SuperGLUE demonstrate that our method achieves comprehensive improvements on a
wide variety of NLU tasks in both Chinese and English with little extra
inference cost incurred, and that our best ensemble model achieves the
state-of-the-art performance on CLUE benchmark competition.
- Abstract(参考訳): 大規模コーパスに基づく言語モデルの事前学習は、豊富な文脈表現の構築において大きな成功を収め、様々な自然言語理解(NLU)タスクにおいて大きなパフォーマンス向上をもたらした。
この成功にもかかわらず、BERTのような現在の事前訓練された言語モデルのほとんどは、単一の粒度のトークン化に基づいて訓練されており、通常は粒度の細かい文字やサブワードで訓練されている。
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,表現能力を向上させることができる。
CLUE と SuperGLUE で行った大規模な実験により,提案手法は中国語と英語の多種多様な NLU タスクに対して,余分な推論コストを伴わずに包括的な改善を実現し,また,我々の最高のアンサンブルモデルがCLUE ベンチマーク競争における最先端性能を達成することを示した。
関連論文リスト
- A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models [39.35525969831397]
本研究は、中国語スペル訂正(CSC)タスクに大規模言語モデル(LLM)を活用するための、簡単なトレーニングフリーなプロンプトフリーアプローチを提案する。
5つの公開データセットの実験により、我々のアプローチはLLMの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-10-05T04:06:56Z) - CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Differentiable Prompt Makes Pre-trained Language Models Better Few-shot
Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。
小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。
標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T12:29:25Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - DIET: Lightweight Language Understanding for Dialogue Systems [0.0]
大規模な事前学習型言語モデルは、GLUEやSuperGLUEのような言語理解ベンチマークにおいて、驚くべき結果を示している。
本稿では,Dual Intent and Entity Transformer (DIET)アーキテクチャを導入し,意図と実体予測に対する事前学習表現の有効性について検討する。
論文 参考訳(メタデータ) (2020-04-21T12:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。