Fugu-MT 論文翻訳(概要): On the Robustness of Language Encoders against Grammatical Errors

論文の概要: On the Robustness of Language Encoders against Grammatical Errors

arxiv url: http://arxiv.org/abs/2005.05683v1
Date: Tue, 12 May 2020 11:01:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 18:59:11.390242
Title: On the Robustness of Language Encoders against Grammatical Errors
Title（参考訳）: 文法的誤りに対する言語エンコーダのロバスト性について
Authors: Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang
Abstract要約: 我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
参考スコア（独自算出の注目度）: 66.05648604987479
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We conduct a thorough study to diagnose the behaviors of pre-trained language encoders (ELMo, BERT, and RoBERTa) when confronted with natural grammatical errors. Specifically, we collect real grammatical errors from non-native speakers and conduct adversarial attacks to simulate these errors on clean text data. We use this approach to facilitate debugging models on downstream applications. Results confirm that the performance of all tested models is affected but the degree of impact varies. To interpret model behaviors, we further design a linguistic acceptability task to reveal their abilities in identifying ungrammatical sentences and the position of errors. We find that fixed contextual encoders with a simple classifier trained on the prediction of sentence correctness are able to locate error positions. We also design a cloze test for BERT and discover that BERT captures the interaction between errors and specific tokens in context. Our results shed light on understanding the robustness and behaviors of language encoders against grammatical errors.
Abstract（参考訳）: 本研究は,言語エンコーダ(ELMo,BERT,RoBERTa)の自然な文法的誤りに直面する場合の動作を徹底的に診断する。具体的には、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。このアプローチを使って、下流アプリケーションのデバッグモデルを容易にします。結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。モデルの振る舞いを解釈するために,非文法的な文と誤りの位置を識別する能力を明らかにするための言語受容性タスクをさらに設計する。文の正しさの予測を訓練した単純な分類器を持つ固定されたコンテクストエンコーダは誤り位置を見つけることができる。また、BERTのクローゼテストも設計し、BERTがコンテキスト内のエラーと特定のトークン間の相互作用をキャプチャすることを確認した。その結果,文法的誤りに対する言語エンコーダの頑健さと動作の理解に光を当てた。

関連論文リスト

Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
Learning from Mistakes: Self-correct Adversarial Training for Chinese Unnatural Text Correction [6.426690600216749]
不自然なテキスト補正は、文中のスペルエラーや逆転摂動エラーを自動的に検出し、修正することを目的としている。既存の方法は、ミスを修正するための微調整や敵の訓練に頼っている。我々はtextbfMIstextbfTakes から textbfLearntextbfIng の自己正逆学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-23T04:58:58Z)
A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance [1.7000578646860536]
最も多い書き込みエラーのうち、スペルミスは、様々な要因によって頻繁に発生する。本研究の目的は,ニューラルネットワークを用いてテキスト中の多様な綴り誤りを特定し,修正することである。
論文参考訳（メタデータ） (2024-07-24T16:07:11Z)
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。提案手法であるPremiseが実際によく動作することを示す。
論文参考訳（メタデータ） (2023-11-18T00:24:26Z)
Byte-Level Grammatical Error Correction Using Synthetic and Curated Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文参考訳（メタデータ） (2023-05-29T06:35:40Z)
Towards Fine-Grained Information: Identifying the Type and Location of Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文参考訳（メタデータ） (2023-02-17T16:20:33Z)
Probing for targeted syntactic knowledge through grammatical error detection [13.653209309144593]
本稿では,事前学習した英語モデルを評価するために,文法的誤り検出を診断プローブとして提案する。我々は、英語の第二言語学習者とウィキペディアの編集の両方から、公的な注釈付きトレーニングデータを活用する。マスク付き言語モデルでは,SVAエラー検出に関連する情報を線形に符号化し,自動回帰モデルはベースラインと同等に動作することがわかった。
論文参考訳（メタデータ） (2022-10-28T16:01:25Z)
uChecker: Masked Pretrained Language Models as Unsupervised Chinese Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。 BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文参考訳（メタデータ） (2022-09-15T05:57:12Z)
Improving Pre-trained Language Models with Syntactic Dependency Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文参考訳（メタデータ） (2022-04-15T13:55:32Z)
A Syntax-Guided Grammatical Error Correction Model with Dependency Tree Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文参考訳（メタデータ） (2021-11-05T07:07:48Z)
Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文参考訳（メタデータ） (2020-01-10T15:45:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。