論文の概要: Investigating Glyph Phonetic Information for Chinese Spell Checking:
What Works and What's Next
- arxiv url: http://arxiv.org/abs/2212.04068v1
- Date: Thu, 8 Dec 2022 04:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:40:26.179615
- Title: Investigating Glyph Phonetic Information for Chinese Spell Checking:
What Works and What's Next
- Title(参考訳): 中国語のスペルチェックのためのグリフ音声情報の調査:何が機能し、次に何が起こるか
- Authors: Xiaotian Zhang, Yanjun Zheng, Hang Yan, Xipeng Qiu
- Abstract要約: 中国語スペルチェック(CSC)課題におけるグリフ音声情報の役割について論じる。
我々は,CSCモデルの一般化可能性をテストするための,新しい,より困難な,実践的な設定を提案する。
- 参考スコア(独自算出の注目度): 48.12125502456953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While pre-trained Chinese language models have demonstrated impressive
performance on a wide range of NLP tasks, the Chinese Spell Checking (CSC) task
remains a challenge. Previous research has explored using information such as
glyphs and phonetics to improve the ability to distinguish misspelled
characters, with good results. However, the generalization ability of these
models is not well understood: it is unclear whether they incorporate
glyph-phonetic information and, if so, whether this information is fully
utilized. In this paper, we aim to better understand the role of glyph-phonetic
information in the CSC task and suggest directions for improvement.
Additionally, we propose a new, more challenging, and practical setting for
testing the generalizability of CSC models. All code is made publicly
available.
- Abstract(参考訳): 事前訓練された中国語モデルは、幅広いNLPタスクにおいて印象的なパフォーマンスを示しているが、中国語スペルチェック(CSC)タスクは依然として課題である。
従来の研究では、グリフや音声学などの情報を用いて、誤字を識別する能力を改善することが研究されている。
しかし、これらのモデルの一般化能力はよく理解されておらず、グリフ音声情報と、その情報が十分に活用されているかどうかは不明である。
本稿では,CSCタスクにおけるグリフ音声情報の役割をよりよく理解し,改善の方向性を提案する。
さらに,CSCモデルの一般化可能性をテストするための,新しい,より困難な,実践的な設定を提案する。
すべてのコードは公開されています。
関連論文リスト
- The Impact of Visual Information in Chinese Characters: Evaluating Large Models' Ability to Recognize and Utilize Radicals [17.24821720084663]
我々は,大言語モデルと視覚言語モデルによる漢字の視覚的要素の理解を評価する。
我々の結果は、モデルが驚くほど、しかしまだ限られた、視覚情報に関する知識を誇示していることを示している。
我々は、ラジカルに関する追加情報を提供する際に、パートオフ音声タグ付けにおける一貫した改善を観察する。
論文 参考訳(メタデータ) (2024-10-11T17:30:02Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - Learning from the Dictionary: Heterogeneous Knowledge Guided Fine-tuning
for Chinese Spell Checking [32.16787396943434]
中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。
最近の研究は、言語モデルの事前訓練された知識から始まり、CSCモデルにマルチモーダル情報を取り入れて性能を向上させる。
本稿では,音声学・視覚学・意味学の観点から,CSCモデルを用いて辞書から異種知識を学習するLEADフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-19T06:31:34Z) - Contextual Similarity is More Valuable than Character Similarity:
Curriculum Learning for Chinese Spell Checking [26.93594761258908]
中国語のスペルチェック(CSC)タスクは、中国語のスペルエラーを検出し、修正することを目的としている。
文脈的類似性をよりよく活用するために,CSCタスクのためのシンプルで効果的なカリキュラム学習フレームワークを提案する。
設計したモデルに依存しないフレームワークの助けを借りて、既存のCSCモデルは、人間が漢字を学習するときに、容易から困難に訓練される。
論文 参考訳(メタデータ) (2022-07-17T03:12:27Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。