論文の概要: Make BERT-based Chinese Spelling Check Model Enhanced by Layerwise
Attention and Gaussian Mixture Model
- arxiv url: http://arxiv.org/abs/2312.16623v1
- Date: Wed, 27 Dec 2023 16:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:42:12.191965
- Title: Make BERT-based Chinese Spelling Check Model Enhanced by Layerwise
Attention and Gaussian Mixture Model
- Title(参考訳): 階層的注意とガウス混合モデルによるBERTに基づく中国語スペルチェックモデルの構築
- Authors: Yongchang Cao, Liang He, Zhen Wu, Xinyu Dai
- Abstract要約: 我々は、BERTベースのCSCモデルを強化するために、異種知識注入フレームワークを設計する。
複数層表現を生成するために,n-gram-based layerwise self-attention の新たな形式を提案する。
実験の結果,提案手法は4つの強力なベースラインモデルに対して安定な性能向上をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 33.446533426654995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT-based models have shown a remarkable ability in the Chinese Spelling
Check (CSC) task recently. However, traditional BERT-based methods still suffer
from two limitations. First, although previous works have identified that
explicit prior knowledge like Part-Of-Speech (POS) tagging can benefit in the
CSC task, they neglected the fact that spelling errors inherent in CSC data can
lead to incorrect tags and therefore mislead models. Additionally, they ignored
the correlation between the implicit hierarchical information encoded by BERT's
intermediate layers and different linguistic phenomena. This results in
sub-optimal accuracy. To alleviate the above two issues, we design a
heterogeneous knowledge-infused framework to strengthen BERT-based CSC models.
To incorporate explicit POS knowledge, we utilize an auxiliary task strategy
driven by Gaussian mixture model. Meanwhile, to incorporate implicit
hierarchical linguistic knowledge within the encoder, we propose a novel form
of n-gram-based layerwise self-attention to generate a multilayer
representation. Experimental results show that our proposed framework yields a
stable performance boost over four strong baseline models and outperforms the
previous state-of-the-art methods on two datasets.
- Abstract(参考訳): BERTベースのモデルは、最近中国のスペルチェック(CSC)タスクにおいて顕著な能力を示している。
しかし、従来のBERTベースの手法には2つの制限がある。
まず、以前の研究では、CSCタスクにおいて、Part-Of-Speech (POS) タグのような明示的な事前知識が有用であることを示したが、CSCデータに固有のスペルエラーが間違ったタグや誤ったモデルにつながるという事実を無視した。
さらに、BERTの中間層で符号化された暗黙の階層情報と異なる言語現象との相関を無視した。
これにより、準最適精度が得られる。
上記の2つの問題を緩和するために、BERTベースのCSCモデルを強化するための異種知識注入フレームワークを設計する。
明示的なpos知識を取り入れるために,ガウス混合モデルによって駆動される補助タスク戦略を用いる。
一方,エンコーダ内に暗黙的な階層的言語知識を組み込むため,多層表現を生成するために,n-gramに基づく階層的自己組織化の新しい形式を提案する。
実験の結果,提案フレームワークは4つの強力なベースラインモデルに対して安定した性能向上を実現し,従来の2つのデータセット上での最先端手法よりも優れていた。
関連論文リスト
- FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Pre-training Code Representation with Semantic Flow Graph for Effective
Bug Localization [4.159296619915587]
セマンティックフローグラフ (Semantic Flow Graph, SFG) という, 有向多ラベル符号グラフの表現法を提案する。
そこで本手法は,バグローカライゼーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-24T13:25:17Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - CascadER: Cross-Modal Cascading for Knowledge Graph Link Prediction [22.96768147978534]
本稿では,効率を向上しつつ,完全アンサンブルのランキング精度を維持するための階層型ランキングアーキテクチャCascaderを提案する。
CascadER は LM を用いて、より効率的な KGE の出力を再現し、KGE の精度向上を最大化しつつ、LM を最小限に呼び出すための適応的なサブセット選択方式に依存している。
実験により, モデル間の多様性と個々のモデルの信頼性信号の保存がカスケーダの有効性を説明するのに有効であることがわかった。
論文 参考訳(メタデータ) (2022-05-16T22:55:45Z) - Roof-BERT: Divide Understanding Labour and Join in Work [7.523253052992842]
Roof-BERTは、2つの基盤となるBERTと融合層を持つモデルである。
基盤となるBERTの1つは知識資源をエンコードし、もう1つは元の入力文をエンコードする。
QAタスクの実験結果から,提案手法の有効性が明らかになった。
論文 参考訳(メタデータ) (2021-12-13T15:40:54Z) - BERT4GCN: Using BERT Intermediate Layers to Augment GCN for Aspect-based
Sentiment Classification [2.982218441172364]
グラフベース感性分類(ABSC)アプローチは、事前学習言語モデル(PLM)から文脈単語を埋め込んだ場合に、最先端の結果をもたらす。
本稿では,BERT の PLM からの文法的逐次的特徴と依存グラフからの構文的知識を統合する新しいモデル BERT4GCN を提案する。
論文 参考訳(メタデータ) (2021-10-01T02:03:43Z) - Explaining and Improving BERT Performance on Lexical Semantic Change
Detection [22.934650688233734]
SemEval-2020 Task 1における型ベースモデルの最近の成功は、トークンベースモデルの成功がなぜ我々の分野に反映しないのかという疑問を提起している。
BERTベクトルのクラスタリングに対する変数の範囲の影響を調査し、その低パフォーマンスがターゲット語の正則情報によるものであることを示した。
論文 参考訳(メタデータ) (2021-03-12T13:29:30Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。