Fugu-MT 論文翻訳(概要): Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell Checking

論文の概要: Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell Checking

arxiv url: http://arxiv.org/abs/2305.03314v1
Date: Fri, 5 May 2023 06:43:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-08 15:09:04.015211
Title: Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell Checking
Title（参考訳）: 音とラベルをブロックする「N-Gram Masked Speller for Chinese Spell Checking」
Authors: Haiyun Yang
Abstract要約: 本稿では, ラベルの漏洩や誤検出を回避するため, 電流や周辺トークンをマスキングするn-gramマスキング層を提案する。 SIGHANデータセットの実験では、プラグ可能なn-gramマスキング機構により、一般的なCSCモデルの性能が向上することを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Chinese Spell Checking(CSC), a task to detect erroneous characters in a sentence and correct them, has attracted extensive interest because of its wide applications in various NLP tasks. Most of the existing methods have utilized BERT to extract semantic information for CSC task. However, these methods directly take sentences with only a few errors as inputs, where the correct characters may leak answers to the model and dampen its ability to capture distant context; while the erroneous characters may disturb the semantic encoding process and result in poor representations. Based on such observations, this paper proposes an n-gram masking layer that masks current and/or surrounding tokens to avoid label leakage and error disturbance. Moreover, considering that the mask strategy may ignore multi-modal information indicated by errors, a novel dot-product gating mechanism is proposed to integrate the phonological and morphological information with semantic representation. Extensive experiments on SIGHAN datasets have demonstrated that the pluggable n-gram masking mechanism can improve the performance of prevalent CSC models and the proposed methods in this paper outperform multiple powerful state-of-the-art models.
Abstract（参考訳）: 近年,文中の誤字を検知して修正するタスクである中国語スペルチェック(CSC)が,様々なNLPタスクに広く応用されているため,注目されている。既存の手法の多くはBERTを用いてCSCタスクのセマンティック情報を抽出している。しかし、これらの方法は、入力としてわずかな誤りしか持たない文を直接受け取り、正しい文字がモデルに答えを漏らし、遠方の文脈を捉える能力を損なう可能性がある。そこで本研究では, ラベルの漏洩や誤検出を回避するため, 電流や周辺トークンをマスクするn-gramマスキング層を提案する。また,誤りによって示されるマルチモーダル情報を無視するマスク戦略を考えると,音韻学的・形態的情報を意味表現と統合する新たな点生成ゲーティング機構が提案されている。 SIGHANデータセットの広汎な実験により、プラグ可能なn-gramマスキング機構により、一般的なCSCモデルの性能が向上することを示した。

関連論文リスト

Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection [58.927873049646024]
実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
論文参考訳（メタデータ） (2025-11-01T06:51:14Z)
Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文参考訳（メタデータ） (2025-10-30T13:09:00Z)
Automated Quality Control for Language Documentation: Detecting Phonotactic Inconsistencies in a Kokborok Wordlist [0.0]
バングラを用いたコクボロク品種の多言語データセットに教師なし異常検出法を適用した。文字レベルと音節レベルの特徴は、潜在的な転写エラーや借用を識別するために使用される。ハイリコールアプローチは、フィールドワーカーに検証を必要とするエントリをフラグする体系的な方法を提供する。
論文参考訳（メタデータ） (2025-10-24T15:51:10Z)
Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文参考訳（メタデータ） (2025-02-28T04:15:36Z)
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文参考訳（メタデータ） (2024-10-14T07:56:51Z)
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。提案手法であるPremiseが実際によく動作することを示す。
論文参考訳（メタデータ） (2023-11-18T00:24:26Z)
Improving Input-label Mapping with Demonstration Replay for In-context Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。 Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。 ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文参考訳（メタデータ） (2023-10-30T14:29:41Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Incremental Image Labeling via Iterative Refinement [4.7590051176368915]
特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。この避けられないバイアスにより、現在のコンピュータビジョンタスクのパフォーマンスはさらに低下する。我々は、ラベリングプロセスを駆動するガイドラインを提供するために、知識表現(KR)ベースの方法論を導入する。
論文参考訳（メタデータ） (2023-04-18T13:37:22Z)
Hard Nominal Example-aware Template Mutual Matching for Industrial Anomaly Detection [74.9262846410559]
textbfHard Nominal textbfExample-aware textbfTemplate textbfMutual textbfMatching (HETMM) textitHETMMは、厳密なプロトタイプベースの決定境界を構築することを目的としており、ハードノミナルな例と異常を正確に区別することができる。
論文参考訳（メタデータ） (2023-03-28T17:54:56Z)
Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。これまでの方法では、既存のデータセットを完全に活用できない場合がある。そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文参考訳（メタデータ） (2022-11-15T01:55:34Z)
uChecker: Masked Pretrained Language Models as Unsupervised Chinese Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。 BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文参考訳（メタデータ） (2022-09-15T05:57:12Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Disentangling Representations of Text by Masking Transformers [27.6903196190087]
トランスウェイトや隠れたユニット上のバイナリマスクを学習し、特定の変動要因と相関する特徴のサブセットを明らかにします。本稿では,映画評論における感情表現をジャンルから切り離す能力,つぶやきにおける方言からの「毒性」,意味論からの構文について評価する。
論文参考訳（メタデータ） (2021-04-14T22:45:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。