論文の概要: Towards Real-World Writing Assistance: A Chinese Character Checking
Benchmark with Faked and Misspelled Characters
- arxiv url: http://arxiv.org/abs/2311.11268v1
- Date: Sun, 19 Nov 2023 08:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 21:24:26.249227
- Title: Towards Real-World Writing Assistance: A Chinese Character Checking
Benchmark with Faked and Misspelled Characters
- Title(参考訳): 実世界の筆記支援に向けて:偽字と誤字による漢字チェックベンチマーク
- Authors: Yinghui Li, Zishan Xu, Shaoshen Chen, Haojing Huang, Yangning Li, Yong
Jiang, Zhongli Li, Qingyu Zhou, Hai-Tao Zheng, Ying Shen
- Abstract要約: 偽字と誤字のデータセットである Visual-C$3$ を提示する。
Visual-C$3$は、中国の文字チェックシナリオのための、世界初の実世界のビジュアルで最大の人為的なデータセットである。
- 参考スコア(独自算出の注目度): 45.28585862295866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Writing assistance is an application closely related to human life and is
also a fundamental Natural Language Processing (NLP) research field. Its aim is
to improve the correctness and quality of input texts, with character checking
being crucial in detecting and correcting wrong characters. From the
perspective of the real world where handwriting occupies the vast majority,
characters that humans get wrong include faked characters (i.e., untrue
characters created due to writing errors) and misspelled characters (i.e., true
characters used incorrectly due to spelling errors). However, existing datasets
and related studies only focus on misspelled characters mainly caused by
phonological or visual confusion, thereby ignoring faked characters which are
more common and difficult. To break through this dilemma, we present
Visual-C$^3$, a human-annotated Visual Chinese Character Checking dataset with
faked and misspelled Chinese characters. To the best of our knowledge,
Visual-C$^3$ is the first real-world visual and the largest human-crafted
dataset for the Chinese character checking scenario. Additionally, we also
propose and evaluate novel baseline methods on Visual-C$^3$. Extensive
empirical results and analyses show that Visual-C$^3$ is high-quality yet
challenging. The Visual-C$^3$ dataset and the baseline methods will be publicly
available to facilitate further research in the community.
- Abstract(参考訳): 筆記支援は人間の生活に密接に関連する応用であり、また、基礎的な自然言語処理(NLP)研究分野でもある。
その目的は入力テキストの正しさと品質を改善することであり、誤字の検出と修正には文字チェックが不可欠である。
手書き文字が大多数を占める現実の世界から見ると、人間が間違える文字には、偽文字(すなわち、文字の誤りによって作られた不正確な文字)と誤字文字(すなわち、スペルミスによって誤用された真の文字)が含まれる。
しかし、既存のデータセットや関連研究は、主に音韻的・視覚的混乱に起因する誤字のみに焦点を当てており、より一般的で難しい偽字を無視している。
このジレンマを突破するために、偽字と誤字が混ざった人間の注釈付き視覚中国語文字チェックデータセットVisual-C$^3$を提示する。
私たちの知る限りでは、visual-c$^3$は、漢字チェックシナリオにおける、最初の現実世界のビジュアルであり、最大の人造データセットです。
また,Visual-C$^3$の新たなベースライン手法を提案し,評価する。
広範な実験結果と分析の結果、visual-c$^3$は高品質だが困難であることがわかった。
Visual-C$^3$データセットとベースラインメソッドは、コミュニティにおけるさらなる研究を促進するために公開されます。
関連論文リスト
- Revisiting the Role of Language Priors in Vision-Language Models [96.59023532372842]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Character-Aware Models Improve Visual Text Rendering [57.19915686282047]
現在の画像生成モデルは、十分に整形されたビジュアルテキストを生成するのに苦労している。
文字認識モデルは、新しい綴りタスクに大きな利益をもたらす。
われわれのモデルでは、ビジュアルスペルの精度は比較的高く、稀な単語の競合よりも30以上の精度が向上した。
論文 参考訳(メタデータ) (2022-12-20T18:59:23Z) - CSCD-IME: Correcting Spelling Errors Generated by Pinyin IME [50.68300047558986]
本稿では,Pinyin IME(CSCD-IME)によって生成された誤りに対する中国語のスペル補正データセットを提案する。
本研究では,Pinyin IMEを用いて入力をシミュレートすることで,大規模かつ高品質な擬似データを自動構築する手法を提案する。
また、データスケール、データソース、トレーニング戦略など、擬似データを使用するための有用なガイドも提供します。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.808021793372504]
本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。
我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。
提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
論文 参考訳(メタデータ) (2021-06-22T08:49:03Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - Inference-only sub-character decomposition improves translation of
unseen logographic characters [18.148675498274866]
ログソース言語上のニューラルマシン翻訳(NMT)は、未知の文字を翻訳する際に苦労する。
中国語と日本語のNMTにおける既存のイデオログラフに基づくサブ文字分解手法について検討する。
完全部分文字分解は文字翻訳を損なうことが多く、概して矛盾する結果をもたらす。
論文 参考訳(メタデータ) (2020-11-12T17:36:22Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - Spectral Graph-based Features for Recognition of Handwritten Characters:
A Case Study on Handwritten Devanagari Numerals [0.0]
本稿では,手書き文字を表現するために,頑健なグラフ表現とスペクトルグラフ埋め込みの概念を利用する手法を提案する。
提案手法の有効性の検証のために,インド統計研究所コルカタデータセットの標準手書き数値視覚パターン認識について広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T08:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。