論文の概要: Learning from the Dictionary: Heterogeneous Knowledge Guided Fine-tuning
for Chinese Spell Checking
- arxiv url: http://arxiv.org/abs/2210.10320v1
- Date: Wed, 19 Oct 2022 06:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:11:32.322321
- Title: Learning from the Dictionary: Heterogeneous Knowledge Guided Fine-tuning
for Chinese Spell Checking
- Title(参考訳): 辞書からの学習 : 中国語スペルチェックのための不均質な知識誘導型微調整
- Authors: Yinghui Li, Shirong Ma, Qingyu Zhou, Zhongli Li, Li Yangning, Shulin
Huang, Ruiyang Liu, Chao Li, Yunbo Cao and Haitao Zheng
- Abstract要約: 中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。
最近の研究は、言語モデルの事前訓練された知識から始まり、CSCモデルにマルチモーダル情報を取り入れて性能を向上させる。
本稿では,音声学・視覚学・意味学の観点から,CSCモデルを用いて辞書から異種知識を学習するLEADフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.16787396943434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Spell Checking (CSC) aims to detect and correct Chinese spelling
errors. Recent researches start from the pretrained knowledge of language
models and take multimodal information into CSC models to improve the
performance. However, they overlook the rich knowledge in the dictionary, the
reference book where one can learn how one character should be pronounced,
written, and used. In this paper, we propose the LEAD framework, which renders
the CSC model to learn heterogeneous knowledge from the dictionary in terms of
phonetics, vision, and meaning. LEAD first constructs positive and negative
samples according to the knowledge of character phonetics, glyphs, and
definitions in the dictionary. Then a unified contrastive learning-based
training scheme is employed to refine the representations of the CSC models.
Extensive experiments and detailed analyses on the SIGHAN benchmark datasets
demonstrate the effectiveness of our proposed methods.
- Abstract(参考訳): Chinese Spell Checking (CSC)は、中国の綴り誤りを検出し、修正することを目的としている。
最近の研究は、言語モデルの事前訓練された知識から始まり、CSCモデルにマルチモーダル情報を取り入れて性能を向上させる。
しかし、ある文字がどのように発音され、書かれ、使われるべきかを学ぶための参考書である辞書の豊富な知識を見落としている。
本稿では,音声学・視覚学・意味学の観点から,CSCモデルを用いて辞書から異種知識を学習するLEADフレームワークを提案する。
LEADはまず、文字音声学、グリフ、辞書の定義の知識に基づいて、正と負のサンプルを構築する。
次に、cscモデルの表現を洗練するために、統一的なコントラスト学習に基づくトレーニングスキームを用いる。
SIGHANベンチマークデータセットの大規模な実験と詳細な解析により,提案手法の有効性が示された。
関連論文リスト
- Why do you cite? An investigation on citation intents and decision-making classification processes [1.7812428873698407]
本研究は,引用意図を信頼して分類することの重要性を強調する。
本稿では,citation Intent Classification (CIC) のための高度なアンサンブル戦略を用いた研究について述べる。
我々のモデルの1つは、SciCiteベンチマークで89.46%のマクロF1スコアを持つ新しい最先端(SOTA)として設定されている。
論文 参考訳(メタデータ) (2024-07-18T09:29:33Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Investigating Glyph Phonetic Information for Chinese Spell Checking:
What Works and What's Next [48.12125502456953]
中国語スペルチェック(CSC)課題におけるグリフ音声情報の役割について論じる。
我々は,CSCモデルの一般化可能性をテストするための,新しい,より困難な,実践的な設定を提案する。
論文 参考訳(メタデータ) (2022-12-08T04:37:29Z) - Contextual Similarity is More Valuable than Character Similarity:
Curriculum Learning for Chinese Spell Checking [26.93594761258908]
中国語のスペルチェック(CSC)タスクは、中国語のスペルエラーを検出し、修正することを目的としている。
文脈的類似性をよりよく活用するために,CSCタスクのためのシンプルで効果的なカリキュラム学習フレームワークを提案する。
設計したモデルに依存しないフレームワークの助けを借りて、既存のCSCモデルは、人間が漢字を学習するときに、容易から困難に訓練される。
論文 参考訳(メタデータ) (2022-07-17T03:12:27Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。