論文の概要: A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check
- arxiv url: http://arxiv.org/abs/2307.13655v1
- Date: Tue, 25 Jul 2023 17:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 15:56:05.157787
- Title: A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check
- Title(参考訳): 中国語スペルチェックの総合的評価と分析に関する研究
- Authors: Xunjian Yin and Xiaojun Wan
- Abstract要約: 音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
- 参考スコア(独自算出の注目度): 53.152011258252315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of pre-trained models and the incorporation of phonetic
and graphic information, neural models have achieved high scores in Chinese
Spelling Check (CSC). However, it does not provide a comprehensive reflection
of the models' capability due to the limited test sets. In this study, we
abstract the representative model paradigm, implement it with nine structures
and experiment them on comprehensive test sets we constructed with different
purposes. We perform a detailed analysis of the results and find that: 1)
Fusing phonetic and graphic information reasonably is effective for CSC. 2)
Models are sensitive to the error distribution of the test set, which reflects
the shortcomings of models and reveals the direction we should work on. 3)
Whether or not the errors and contexts have been seen has a significant impact
on models. 4) The commonly used benchmark, SIGHAN, can not reliably evaluate
models' performance.
- Abstract(参考訳): 事前学習モデルの開発と音声およびグラフィック情報の取り込みにより、ニューラルネットワークは中国語のスペルチェック(CSC)において高いスコアを得た。
しかし、限られたテストセットのため、モデルの性能を包括的に反映するものではない。
本研究では、代表モデルパラダイムを抽象化し、9つの構造で実装し、異なる目的で構築した包括的なテストセットで実験する。
結果の詳細な分析を行い、それを見つけます。
1)音声情報とグラフィック情報を合理的に融合することはCSCに有効である。
2) モデルはテストセットのエラー分布に敏感で、モデルの欠点を反映し、私たちが取り組むべき方向性を明らかにします。
3) エラーやコンテキストがモデルに重大な影響を与えているかどうか。
4) 一般的なベンチマークであるSIGHANはモデルの性能を確実に評価できない。
関連論文リスト
- The Importance of Model Inspection for Better Understanding Performance Characteristics of Graph Neural Networks [15.569758991934934]
脳形状分類タスクに適用したグラフニューラルネットワークの特徴学習特性に対するモデル選択の影響について検討する。
モデルの異なるレイヤに機能の埋め込みを組み込むことで、かなりの違いが見つかります。
論文 参考訳(メタデータ) (2024-05-02T13:26:18Z) - Evaluating the Reliability of CNN Models on Classifying Traffic and Road
Signs using LIME [1.188383832081829]
本研究は,これらのモデルの予測精度と,画像分類に適切な特徴を利用する能力を評価することに焦点を当てた。
モデル予測の強みと限界に関する洞察を得るために、この研究は局所的解釈可能なモデルに依存しない説明(LIME)フレームワークを用いている。
論文 参考訳(メタデータ) (2023-09-11T18:11:38Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Generalizability of Machine Learning Models: Quantitative Evaluation of
Three Methodological Pitfalls [1.3870303451896246]
いくつかの医用画像データセットを用いてランダムフォレストとディープ畳み込みニューラルネットワークモデルを実装した。
独立仮定の違反はモデル一般化可能性に大きく影響する可能性が示唆された。
不適切なパフォーマンス指標は誤った結論につながる可能性がある。
論文 参考訳(メタデータ) (2022-02-01T05:07:27Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - Comparative Study of Language Models on Cross-Domain Data with Model
Agnostic Explainability [0.0]
この研究は、最先端の言語モデルであるBERT、ELECTRAとその派生品であるRoBERTa、ALBERT、DistilBERTを比較した。
実験結果は、2013年の格付けタスクとフィナンシャル・フレーズバンクの感情検出タスクの69%、そして88.2%の精度で、新たな最先端の「評価タスク」を確立した。
論文 参考訳(メタデータ) (2020-09-09T04:31:44Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。