論文の概要: General and Domain Adaptive Chinese Spelling Check with Error Consistent
Pretraining
- arxiv url: http://arxiv.org/abs/2203.10929v1
- Date: Mon, 21 Mar 2022 12:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 23:03:48.491998
- Title: General and Domain Adaptive Chinese Spelling Check with Error Consistent
Pretraining
- Title(参考訳): 誤り整合事前学習を伴う一般および領域適応中国語綴りチェック
- Authors: Qi Lv, Ziqiang Cao, Lei Geng, Chunhui Ai, Xu Yan, Guohong Fu
- Abstract要約: 我々は,事前学習のためのデータを生成するために,エラー一貫性マスキング戦略を採用した競争力のあるジェネラルスペルECSpellを開発した。
入力方式の一般的な実践にヒントを得て,ゼロショット領域適応問題に対処する変更可能なユーザ辞書を提案する。
- 参考スコア(独自算出の注目度): 11.428660127879887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of label data is one of the significant bottlenecks for Chinese
Spelling Check (CSC). Existing researches use the method of automatic
generation by exploiting unlabeled data to expand the supervised corpus.
However, there is a big gap between the real input scenario and automatic
generated corpus. Thus, we develop a competitive general speller ECSpell which
adopts the Error Consistent masking strategy to create data for pretraining.
This error consistency masking strategy is used to specify the error types of
automatically generated sentences which is consistent with real scene. The
experimental result indicates our model outperforms previous state-of-the-art
models on the general benchmark. Moreover, spellers often work within a
particular domain in real life. Due to lots of uncommon domain terms,
experiments on our built domain specific datasets show that general models
perform terribly. Inspired by the common practice of input methods, we propose
to add an alterable user dictionary to handle the zero-shot domain adaption
problem. Specifically, we attach a User Dictionary guided inference module (UD)
to a general token classification based speller. Our experiments demonstrate
that ECSpell$^{UD}$, namely ECSpell combined with UD, surpasses all the other
baselines largely, even approaching the performance on the general benchmark.
- Abstract(参考訳): ラベルデータの欠如は、中国語綴りチェック(csc)の重要なボトルネックの1つである。
既存の研究では、ラベルのないデータを利用して教師付きコーパスを拡張することで自動生成の方法を採用している。
しかし、実際の入力シナリオと自動生成コーパスの間には大きなギャップがある。
そこで本研究では,Error Consistent マスキング戦略を採用した競合型汎用スペル ECSpell を開発し,事前学習のためのデータを生成する。
このエラー一貫性マスキング戦略は、実際のシーンと一致する自動生成文のエラータイプを特定するために使用される。
実験結果から,本モデルが従来の最先端モデルよりも高い性能を示した。
さらに、スペルはしばしば実生活において特定の領域内で機能する。
多くのドメイン用語が一般的ではないため、構築されたドメイン固有のデータセットの実験は、一般的なモデルがひどいパフォーマンスを示す。
入力方式の一般的な実践にヒントを得て,ゼロショット領域適応問題に対処する変更可能なユーザ辞書を提案する。
具体的には,一般トークン分類に基づくスペラにユーザ辞書誘導推論モジュール(ud)を付加する。
我々の実験は、ECSpell$^{UD}$とUDを組み合わせたECSpellが、一般的なベンチマークのパフォーマンスに近づいたとしても、他のすべてのベースラインを超えることを示した。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Domain-knowledge Inspired Pseudo Supervision (DIPS) for Unsupervised
Image-to-Image Translation Models to Support Cross-Domain Classification [16.4151067682813]
本稿ではDIPS(Domain-knowledge Inspired Pseudo Supervision)と呼ばれる新しい手法を提案する。
DIPSはドメインインフォームド・ガウス混合モデルを使用して疑似アノテーションを生成し、従来の教師付きメトリクスの使用を可能にする。
最適保存チェックポイントモデルを選択する際に、FIDを含む様々なGAN評価指標を上回り、その効果を実証する。
論文 参考訳(メタデータ) (2023-03-18T02:42:18Z) - Zero-Shot Anomaly Detection via Batch Normalization [58.291409630995744]
多くの安全クリティカルなアプリケーションドメインでは、異常検出が重要な役割を果たす。
異常検出器を正常なデータ分布でドリフトに適応させることの課題は、ゼロショットAD技術の開発に繋がった。
ゼロショットバッチレベルのADに対して,適応中心表現(Adaptive Centered Representation, ACR)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T18:34:15Z) - Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps [12.573927420408365]
事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチよりも大幅に優れていた。
本稿では,語彙と単語周波数のギャップを埋めることによる教師なし領域適応手法を提案する。
提案手法は,現在最先端の領域適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T03:58:26Z) - Zero-Shot Text Matching for Automated Auditing using Sentence
Transformers [0.3078691410268859]
本稿では, トランスフォーマーモデルであるSentence-Bertを用いた教師なしテキストマッチングの効率について, 財務パスのセマンティックな類似性に適用することによって検討する。
実験結果から,本モデルはドメイン内および外部データからの文書に対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-10-28T11:52:16Z) - Generalizable Person Re-Identification via Self-Supervised Batch Norm
Test-Time Adaption [63.7424680360004]
Batch Norm Test-time Adaption (BNTA)は、BNパラメータを適応的に更新するための自己教師型戦略を適用する、新しいre-idフレームワークである。
BNTAは、推論前にラベル付けされていないターゲットデータ内のドメイン認識情報を探索し、BNによって正規化された特徴分布を変調してターゲットドメインに適応させる。
論文 参考訳(メタデータ) (2022-03-01T18:46:32Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Domain Adversarial Fine-Tuning as an Effective Regularizer [80.14528207465412]
自然言語処理(NLP)では、下流タスクに転送される事前訓練された言語モデル(LM)が、最先端の結果を得るために最近示されている。
標準的な微調整は、事前トレーニング中にキャプチャされた汎用ドメイン表現を分解することができる。
本稿では,新しい正規化手法である After; 有効正規化器としてのドメイン・アダクショナル・ファイン・チューニングを提案する。
論文 参考訳(メタデータ) (2020-09-28T14:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。