論文の概要: Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2104.07204v1
- Date: Thu, 15 Apr 2021 02:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:05:24.766158
- Title: Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models
- Title(参考訳): lattice-bert:中国語事前学習言語モデルにおけるマルチグラニュラ表現の活用
- Authors: Yuxuan Lai, Yijia Liu, Yansong Feng, Songfang Huang and Dongyan Zhao
- Abstract要約: 中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
- 参考スコア(独自算出の注目度): 62.41139712595334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese pre-trained language models usually process text as a sequence of
characters, while ignoring more coarse granularity, e.g., words. In this work,
we propose a novel pre-training paradigm for Chinese -- Lattice-BERT, which
explicitly incorporates word representations along with characters, thus can
model a sentence in a multi-granularity manner. Specifically, we construct a
lattice graph from the characters and words in a sentence and feed all these
text units into transformers. We design a lattice position attention mechanism
to exploit the lattice structures in self-attention layers. We further propose
a masked segment prediction task to push the model to learn from rich but
redundant information inherent in lattices, while avoiding learning unexpected
tricks. Experiments on 11 Chinese natural language understanding tasks show
that our model can bring an average increase of 1.5% under the 12-layer
setting, which achieves new state-of-the-art among base-size models on the CLUE
benchmarks. Further analysis shows that Lattice-BERT can harness the lattice
structures, and the improvement comes from the exploration of redundant
information and multi-granularity representations. Our code will be available
at https://github.com/alibaba/pretrained-language-models/LatticeBERT.
- Abstract(参考訳): 中国の事前訓練された言語モデルは通常、文字列としてテキストを処理するが、より粗い粒度、例えば単語を無視する。
本研究では,漢字とともに単語表現を明示的に組み込んだ中国語の事前学習パラダイムLattice-BERTを提案する。
具体的には、文中の文字と単語の格子グラフを構築し、これら全てのテキスト単位をトランスフォーマーに供給する。
自己注意層における格子構造を利用する格子位置注意機構を設計する。
さらに,不測のトリックの学習を回避しつつ,リッチで冗長な情報からモデルに学習を促すためのマスキングセグメント予測タスクを提案する。
11の中国語の自然言語理解タスクの実験では,12層設定で平均1.5%増加し,CLUEベンチマークのベースサイズモデル間で新たな最先端化を実現している。
さらなる分析により、Lattice-BERTは格子構造を利用することができ、その改善は冗長な情報と多粒度表現の探索から導かれる。
私たちのコードはhttps://github.com/alibaba/pretrained-language-models/latticebertで利用可能です。
関連論文リスト
- Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory Prediction [23.45902601618188]
言語モデルは、文脈理解と生成性能において印象的な能力を示してきた。
LMTraj (Language-based Multimodal Trajectory predictor) を提案する。
本稿では,言語に基づくモデルが,歩行者の軌道予測に有効なことを示し,既存の数値ベースの予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T11:06:44Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Hidden Schema Networks [3.4123736336071864]
帰納的バイアスや明示的関係構造を通じて、新しいニューラルネットワークモデルを導入する。
このモデルは文を記号列にエンコードするが、これは偏りのあるランダム・ウォーカーが訪れたノードに対応する。
このモデルにより,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを示す。
論文 参考訳(メタデータ) (2022-07-08T09:26:19Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - KR-BERT: A Small-Scale Korean-Specific Language Model [0.0]
韓国固有のKR-BERTモデルを,より小さな語彙とデータセットを用いて訓練した。
本モデルでは, コーパスを約1/10のサイズのコーパスを用いて, 既存の事前学習モデルと比較し, 比較検討を行った。
論文 参考訳(メタデータ) (2020-08-10T09:26:00Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。