論文の概要: SpellGCN: Incorporating Phonological and Visual Similarities into
Language Models for Chinese Spelling Check
- arxiv url: http://arxiv.org/abs/2004.14166v2
- Date: Wed, 13 May 2020 07:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 13:37:23.906538
- Title: SpellGCN: Incorporating Phonological and Visual Similarities into
Language Models for Chinese Spelling Check
- Title(参考訳): SpellGCN:中国語スペルチェックのための言語モデルへの音韻的および視覚的類似性の導入
- Authors: Xingyi Cheng, Weidi Xu, Kunlong Chen, Shaohua Jiang, Feng Wang,
Taifeng Wang, Wei Chu, Yuan Qi
- Abstract要約: 中国語のスペルチェック(英語: Chinese Spelling Check, CSC)は、中国語のスペルエラーを検出し、訂正するタスクである。
既存の手法では、漢字間の類似性に関する知識を取り入れようと試みている。
本稿では,特殊グラフ畳み込みネットワーク(SpellGCN)を用いて,CSCの言語モデルに音韻的・視覚的類似性を取り入れることを提案する。
- 参考スコア(独自算出の注目度): 28.446849414110297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Spelling Check (CSC) is a task to detect and correct spelling errors
in Chinese natural language. Existing methods have made attempts to incorporate
the similarity knowledge between Chinese characters. However, they take the
similarity knowledge as either an external input resource or just heuristic
rules. This paper proposes to incorporate phonological and visual similarity
knowledge into language models for CSC via a specialized graph convolutional
network (SpellGCN). The model builds a graph over the characters, and SpellGCN
is learned to map this graph into a set of inter-dependent character
classifiers. These classifiers are applied to the representations extracted by
another network, such as BERT, enabling the whole network to be end-to-end
trainable. Experiments (The dataset and all code for this paper are available
at https://github.com/ACL2020SpellGCN/SpellGCN) are conducted on three
human-annotated datasets. Our method achieves superior performance against
previous models by a large margin.
- Abstract(参考訳): Chinese Spelling Check (CSC)は、中国語のスペルエラーを検出し修正するタスクである。
既存の手法は漢字間の類似知識を取り入れようと試みている。
しかし、それらは類似性知識を外部の入力リソースまたはヒューリスティックなルールとして捉えている。
本稿では,特殊グラフ畳み込みネットワーク(SpellGCN)を用いて,音韻的・視覚的類似知識をCSCの言語モデルに組み込むことを提案する。
モデルは文字の上にグラフを構築し、SpellGCNはこのグラフを独立した文字分類器の集合にマッピングする。
これらの分類器はBERTなどの他のネットワークによって抽出された表現に適用され、ネットワーク全体がエンドツーエンドのトレーニングが可能となる。
実験(データセットとこの論文のコードはhttps://github.com/ACL2020SpellGCN/SpellGCN)は3つの人為的なデータセットで実施されている。
本手法は従来のモデルよりも大きなマージンで優れた性能を実現する。
関連論文リスト
- Egalitarian Language Representation in Language Models: It All Begins with Tokenizers [0.0]
すべてのトークンライザが、Tamil、Sinhala、Hindiといった複雑なスクリプト言語に対して公正な表現を提供するわけではないことを示す。
本稿では,Grapheme Pair と呼ばれるグラフエムを組み込むことにより,Byte Pair アルゴリズムの改良を提案する。
実験の結果, 文字抽出は複雑なスクリプトに対して, バイトレベルのトークン化器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T19:05:37Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Chinese Financial Text Emotion Mining: GCGTS -- A Character
Relationship-based Approach for Simultaneous Aspect-Opinion Pair Extraction [7.484918031250864]
中国の財務文献からのアスペクト・オピニオン・ペア抽出(AOPE)は、微粒テキスト感情分析の専門課題である。
従来の研究は主に、この抽出プロセスを容易にするためにグリッドモデル内のグリッドアノテーションスキームの開発に重点を置いてきた。
我々は、GCGTS(Graph-based Character-level Grid Tagging Scheme)と呼ばれる新しい手法を提案する。
GCGTS法は、グラフ畳み込みネットワーク(GCN)を用いた構文構造を明示的に取り入れ、同じ意味単位(中国語の単語レベル)内で文字の符号化を統一する。
論文 参考訳(メタデータ) (2023-08-04T02:20:56Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - BERT is to NLP what AlexNet is to CV: Can Pre-Trained Language Models
Identify Analogies? [35.381345454627]
アナログを識別する教師なしタスクにおいて,トランスフォーマーに基づく言語モデルの性能を解析する。
オフザシェルフ言語モデルは、ある程度の類似を識別できるが、抽象的かつ複雑な関係に苦しむ。
本研究は,学習済み言語モデルがどのように抽象意味関係に関する知識を捉えているか,その程度について,今後の研究に向けて重要な疑問を提起するものである。
論文 参考訳(メタデータ) (2021-05-11T11:38:49Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。