論文の概要: MCSCSet: A Specialist-annotated Dataset for Medical-domain Chinese
Spelling Correction
- arxiv url: http://arxiv.org/abs/2210.11720v1
- Date: Fri, 21 Oct 2022 04:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:35:01.901557
- Title: MCSCSet: A Specialist-annotated Dataset for Medical-domain Chinese
Spelling Correction
- Title(参考訳): MCSCSet: 医学領域の中国語スペル訂正のための特別な注釈付きデータセット
- Authors: Wangjie Jiang, Zhihao Ye, Zijing Ou, Ruihui Zhao, Jianguang Zheng, Yi
Liu, Siheng Li, Bang Liu, Yujiu Yang and Yefeng Zheng
- Abstract要約: 中国語のスペル訂正(CSC)は、中国語のテキストのスペルエラーを自動的に検出し、修正するという約束により、注目を集めている。
医療機関のミススペルの訂正は、特定のドメイン知識の要求のため、オープンドメインのミススペルよりもおそらく困難である。
約200万のサンプルを含む大規模専門家アノテートデータセットであるMCSCSetを提案する。
- 参考スコア(独自算出の注目度): 34.95968361672433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese Spelling Correction (CSC) is gaining increasing attention due to its
promise of automatically detecting and correcting spelling errors in Chinese
texts. Despite its extensive use in many applications, like search engines and
optical character recognition systems, little has been explored in medical
scenarios in which complex and uncommon medical entities are easily misspelled.
Correcting the misspellings of medical entities is arguably more difficult than
those in the open domain due to its requirements of specificdomain knowledge.
In this work, we define the task of Medical-domain Chinese Spelling Correction
and propose MCSCSet, a large scale specialist-annotated dataset that contains
about 200k samples. In contrast to the existing open-domain CSC datasets,
MCSCSet involves: i) extensive real-world medical queries collected from
Tencent Yidian, ii) corresponding misspelled sentences manually annotated by
medical specialists. To ensure automated dataset curation, MCSCSet further
offers a medical confusion set consisting of the commonly misspelled characters
of given Chinese medical terms. This enables one to create the medical
misspelling dataset automatically. Extensive empirical studies have shown
significant performance gaps between the open-domain and medical-domain
spelling correction, highlighting the need to develop high-quality datasets
that allow for Chinese spelling correction in specific domains. Moreover, our
work benchmarks several representative Chinese spelling correction models,
establishing baselines for future work.
- Abstract(参考訳): 中国語テキストにおける綴り誤りの自動検出と訂正の約束により、中国語綴り訂正(csc)が注目を集めている。
検索エンジンや光学文字認識システムなど多くのアプリケーションで広く使われているが、複雑で一般的な医療機関が容易に誤る医療シナリオでは、ほとんど研究されていない。
医療機関のミススペルの訂正は、特定のドメイン知識の要求のため、オープンドメインのものよりもおそらく困難である。
本研究では,中国医学領域の綴り修正の課題を定義し,約200万点のサンプルを含む大規模専門家注釈データセットであるmcscsetを提案する。
既存のオープンドメインのCSCデータセットとは対照的に、MCSCSetは以下のようになる。
一 Tencent Yidianから収集した広範囲の現実世界の医療クエリ
二 医療専門家が手動で記入した誤記文
自動的なデータセットのキュレーションを保証するため、MCSCSetはさらに、中国の医学用語の一般的なミススペル文字からなる医学的混乱セットを提供する。
これにより、医療ミススペルデータセットを自動的に作成できる。
大規模な実証研究は、オープンドメインと医療ドメインの綴り補正の間に大きなパフォーマンスギャップを示しており、特定のドメインで中国語の綴り補正を可能にする高品質なデータセットを開発する必要性を強調している。
さらに,中国を代表するスペル補正モデルをベンチマークし,今後の作業のベースラインを確立する。
関連論文リスト
- CRAT: A Multi-Agent Framework for Causality-Enhanced Reflective and Retrieval-Augmented Translation with Large Language Models [59.8529196670565]
CRATは、RAGと因果強化自己回帰を利用して翻訳課題に対処する、新しいマルチエージェント翻訳フレームワークである。
以上の結果からCRATは翻訳精度を著しく向上させ,特に文脈に敏感な単語や語彙の出現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-28T14:29:11Z) - MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations [23.437292621092823]
本研究は,医学史研究のための英語における医師と患者との対話のデータセットであるMedictoDを紹介する。
医療領域に合わせたアンケートに基づくラベリング手法を考案する。
そして、医療専門家は高品質の包括的なアノテーションでデータセットを作成する。
論文 参考訳(メタデータ) (2024-10-18T06:38:22Z) - Searching for Best Practices in Medical Transcription with Large Language Model [1.0855602842179624]
本稿では,Large Language Model (LLM) を用いて,高精度な医療書面を生成する手法を提案する。
提案手法は,単語誤り率(WER)を低くし,重要な医療用語の正確な認識を確保するために,高度な言語モデリング技術を統合する。
論文 参考訳(メタデータ) (2024-10-04T03:41:16Z) - PromptMind Team at MEDIQA-CORR 2024: Improving Clinical Text Correction with Error Categorization and LLM Ensembles [0.0]
本稿では,医療従事者による臨床ノートの誤り検出と修正を含むMEDIQA-CORR共有タスクへのアプローチについて述べる。
我々は,事実情報と信頼できない情報の両方を含む膨大なインターネットデータのコーパスに基づいて訓練された大規模言語モデルの能力を評価することを目的としている。
論文 参考訳(メタデータ) (2024-05-14T07:16:36Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CSED: A Chinese Semantic Error Diagnosis Corpus [52.92010408053424]
関連するデータセットが欠如している中国の意味的誤り診断(CSED)の複雑な問題について検討する。
意味的誤りの研究は、それらが非常に一般的であり、統語的不規則や理解の問題に繋がる可能性があるため重要である。
本稿では,CSEDタスクに適応する構文認識モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T05:33:31Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Unifying Relational Sentence Generation and Retrieval for Medical Image
Report Composition [142.42920413017163]
現在の手法は、個々のケースのデータセットバイアスにより、しばしば最も一般的な文を生成する。
テンプレート検索と文生成を一体化し、共通およびまれな異常に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T04:33:27Z) - Vartani Spellcheck -- Automatic Context-Sensitive Spelling Correction of
OCR-generated Hindi Text Using BERT and Levenshtein Distance [3.0422254248414276]
Vartani Spellcheck はヒンディー語テキストのスペル補正のための文脈依存型アプローチである。
81%の精度で, 従来確立されていたヒンディー語における文脈依存的誤り訂正機構よりも有意な改善が認められた。
論文 参考訳(メタデータ) (2020-12-14T15:49:54Z) - Domain-shift Conditioning using Adaptable Filtering via Hierarchical
Embeddings for Robust Chinese Spell Check [29.041134293160255]
スペルチェックは、ノイズの多い人為的なテキストを処理する有用なアプリケーションである。
中国語のスペルチェックでは、混乱セットを用いたフィルタリングは検索スペースを狭め、修正の発見を容易にする。
本稿では,階層的な文字埋め込みを利用した拡張性のある適応可能なフィルタを提案する。
論文 参考訳(メタデータ) (2020-08-27T17:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。