論文の概要: A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models
- arxiv url: http://arxiv.org/abs/2410.04027v1
- Date: Sat, 5 Oct 2024 04:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:40:27.477158
- Title: A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models
- Title(参考訳): 大規模言語モデルに基づく簡素かつ効果的な中国語スペル誤り訂正法
- Authors: Houquan Zhou, Zhenghua Li, Bo Zhang, Chen Li, Shaopeng Lai, Ji Zhang, Fei Huang, Min Zhang,
- Abstract要約: 本研究は、中国語スペル訂正(CSC)タスクに大規模言語モデル(LLM)を活用するための、簡単なトレーニングフリーなプロンプトフリーアプローチを提案する。
5つの公開データセットの実験により、我々のアプローチはLLMの性能を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 39.35525969831397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a simple training-free prompt-free approach to leverage large language models (LLMs) for the Chinese spelling correction (CSC) task, which is totally different from all previous CSC approaches. The key idea is to use an LLM as a pure language model in a conventional manner. The LLM goes through the input sentence from the beginning, and at each inference step, produces a distribution over its vocabulary for deciding the next token, given a partial sentence. To ensure that the output sentence remains faithful to the input sentence, we design a minimal distortion model that utilizes pronunciation or shape similarities between the original and replaced characters. Furthermore, we propose two useful reward strategies to address practical challenges specific to the CSC task. Experiments on five public datasets demonstrate that our approach significantly improves LLM performance, enabling them to compete with state-of-the-art domain-general CSC models.
- Abstract(参考訳): 本研究は、中国語スペル訂正(CSC)タスクに大規模な言語モデル(LLM)を活用するための、簡単なトレーニングフリーなプロンプトフリーアプローチを提案する。
キーとなるアイデアは、従来の方法でLLMを純粋な言語モデルとして使うことです。
LLMは入力文を初めから通り抜け、各推論ステップでは、部分文を与えられた次のトークンを決定するための語彙上の分布を生成する。
出力文が入力文に忠実であることを保証するため、原文字と置換文字の発音や形状の類似性を利用した最小歪みモデルを設計する。
さらに,CSCタスクに特有の実践的課題に対処するための2つの有用な報奨戦略を提案する。
5つの公開データセットの実験により、我々のアプローチはLLMの性能を大幅に改善し、最先端のドメイン汎用CSCモデルと競合することを示した。
関連論文リスト
- Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - L-TUNING: Synchronized Label Tuning for Prompt and Prefix in LLMs [0.0]
本稿では,自然言語推論(NLI)フレームワーク内での分類タスクの効率的な微調整手法であるL-Tuningを紹介する。
L-Tuningは、事前訓練されたLarge Language Models (LLM)を通して処理されるラベルトークンの微調整に焦点を当てている。
実験の結果,従来のアプローチと比較して,L-Tuningによる学習効率と分類精度が有意に向上したことが示唆された。
論文 参考訳(メタデータ) (2023-12-21T01:47:49Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Auto-MLM: Improved Contrastive Learning for Self-supervised
Multi-lingual Knowledge Retrieval [7.73633850933515]
自己教師型多言語知識検索のためのCLとAuto-MLMを組み合わせた共同学習手法を提案する。
実験の結果,提案手法は, LAZADAサービスコーパスと8言語で利用可能なオープンコーパスの両方において, 従来のSOTA手法よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-30T10:13:57Z) - LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文 参考訳(メタデータ) (2021-08-02T12:08:19Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。