論文の概要: Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell
Checking
- arxiv url: http://arxiv.org/abs/2305.03314v1
- Date: Fri, 5 May 2023 06:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:09:04.015211
- Title: Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell
Checking
- Title(参考訳): 音とラベルをブロックする「N-Gram Masked Speller for Chinese Spell Checking」
- Authors: Haiyun Yang
- Abstract要約: 本稿では, ラベルの漏洩や誤検出を回避するため, 電流や周辺トークンをマスキングするn-gramマスキング層を提案する。
SIGHANデータセットの実験では、プラグ可能なn-gramマスキング機構により、一般的なCSCモデルの性能が向上することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Chinese Spell Checking(CSC), a task to detect erroneous characters
in a sentence and correct them, has attracted extensive interest because of its
wide applications in various NLP tasks. Most of the existing methods have
utilized BERT to extract semantic information for CSC task. However, these
methods directly take sentences with only a few errors as inputs, where the
correct characters may leak answers to the model and dampen its ability to
capture distant context; while the erroneous characters may disturb the
semantic encoding process and result in poor representations. Based on such
observations, this paper proposes an n-gram masking layer that masks current
and/or surrounding tokens to avoid label leakage and error disturbance.
Moreover, considering that the mask strategy may ignore multi-modal information
indicated by errors, a novel dot-product gating mechanism is proposed to
integrate the phonological and morphological information with semantic
representation. Extensive experiments on SIGHAN datasets have demonstrated that
the pluggable n-gram masking mechanism can improve the performance of prevalent
CSC models and the proposed methods in this paper outperform multiple powerful
state-of-the-art models.
- Abstract(参考訳): 近年,文中の誤字を検知して修正するタスクである中国語スペルチェック(CSC)が,様々なNLPタスクに広く応用されているため,注目されている。
既存の手法の多くはBERTを用いてCSCタスクのセマンティック情報を抽出している。
しかし、これらの方法は、入力としてわずかな誤りしか持たない文を直接受け取り、正しい文字がモデルに答えを漏らし、遠方の文脈を捉える能力を損なう可能性がある。
そこで本研究では, ラベルの漏洩や誤検出を回避するため, 電流や周辺トークンをマスクするn-gramマスキング層を提案する。
また,誤りによって示されるマルチモーダル情報を無視するマスク戦略を考えると,音韻学的・形態的情報を意味表現と統合する新たな点生成ゲーティング機構が提案されている。
SIGHANデータセットの広汎な実験により、プラグ可能なn-gramマスキング機構により、一般的なCSCモデルの性能が向上することを示した。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Incremental Image Labeling via Iterative Refinement [4.7590051176368915]
特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。
この避けられないバイアスにより、現在のコンピュータビジョンタスクのパフォーマンスはさらに低下する。
我々は、ラベリングプロセスを駆動するガイドラインを提供するために、知識表現(KR)ベースの方法論を導入する。
論文 参考訳(メタデータ) (2023-04-18T13:37:22Z) - Hard Nominal Example-aware Template Mutual Matching for Industrial
Anomaly Detection [74.9262846410559]
textbfHard Nominal textbfExample-aware textbfTemplate textbfMutual textbfMatching (HETMM)
textitHETMMは、厳密なプロトタイプベースの決定境界を構築することを目的としており、ハードノミナルな例と異常を正確に区別することができる。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Disentangling Representations of Text by Masking Transformers [27.6903196190087]
トランスウェイトや隠れたユニット上のバイナリマスクを学習し、特定の変動要因と相関する特徴のサブセットを明らかにします。
本稿では,映画評論における感情表現をジャンルから切り離す能力,つぶやきにおける方言からの「毒性」,意味論からの構文について評価する。
論文 参考訳(メタデータ) (2021-04-14T22:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。