論文の概要: A Small and Fast BERT for Chinese Medical Punctuation Restoration
- arxiv url: http://arxiv.org/abs/2308.12568v1
- Date: Thu, 24 Aug 2023 05:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 15:17:33.782859
- Title: A Small and Fast BERT for Chinese Medical Punctuation Restoration
- Title(参考訳): 中国の医療機能回復のための小型・高速BERT
- Authors: Tongtao Ling, Chen Liao, Zhipeng Yu, Lei Chen, Shilei Huang, Yi Liu
- Abstract要約: そこで本研究では,中国医学的句読点回復のための「事前訓練・微調整」パラダイムに基づく,高速で軽量な事前訓練モデルを提案する。
各種蒸留モデルを用いた実験により, 現状の中国RoBERTaと比較して, モデルサイズが10%であるのに対して, 95%の性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 8.744770384955629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In clinical dictation, utterances after automatic speech recognition (ASR)
without explicit punctuation marks may lead to the misunderstanding of dictated
reports. To give a precise and understandable clinical report with ASR,
automatic punctuation restoration is required. Considering a practical
scenario, we propose a fast and light pre-trained model for Chinese medical
punctuation restoration based on 'pretraining and fine-tuning' paradigm. In
this work, we distill pre-trained models by incorporating supervised
contrastive learning and a novel auxiliary pre-training task (Punctuation Mark
Prediction) to make it well-suited for punctuation restoration. Our experiments
on various distilled models reveal that our model can achieve 95% performance
while 10% model size relative to state-of-the-art Chinese RoBERTa.
- Abstract(参考訳): 臨床ディクテーションでは、明示的な句読点のない自動音声認識(asr)後の発話は、ディクテーションされた報告の誤解につながる可能性がある。
ASRを用いた正確な臨床報告を行うには,自動句読点修復が必要である。
実践的なシナリオを考慮し、我々は「訓練と微調整」のパラダイムに基づく中国医学的句読点回復のための高速で軽量な事前訓練モデルを提案する。
本研究では,教師付きコントラスト学習と新たな補助事前学習タスク(punctuation mark prediction)を組み込んだ事前学習モデルを蒸留し,句読点復元に適合させた。
各種蒸留モデルを用いた実験により, 現状の中国RoBERTaと比較して10パーセントのモデルサイズで95%の性能が得られた。
関連論文リスト
- Clinical information extraction for Low-resource languages with Few-shot learning using Pre-trained language models and Prompting [12.166472806042592]
臨床資料から医療情報を自動抽出することはいくつかの課題をもたらす。
ドメイン適応とプロンプト手法の最近の進歩は、最小限のトレーニングデータで有望な結果を示した。
軽量でドメイン適応型事前訓練モデルが20ショットでトリガーされ、従来の分類モデルを30.5%精度で上回っていることを実証する。
論文 参考訳(メタデータ) (2024-03-20T08:01:33Z) - Resolving Transcription Ambiguity in Spanish: A Hybrid Acoustic-Lexical
System for Punctuation Restoration [0.4821250031784094]
本稿では,スペイン語転写のためのハイブリッド音響-語彙句読解システムを提案する。
実験の結果,提案システムは質問点のF1スコアと全体的な句読点回復を効果的に改善できることがわかった。
論文 参考訳(メタデータ) (2024-02-05T21:05:35Z) - Seq2seq for Automatic Paraphasia Detection in Aphasic Speech [14.686874756530322]
失語症は失語症の特徴である発話誤りであり、病気の重症度やサブタイプを評価する上で重要な信号である。
伝統的に、臨床医は言語サンプルの翻訳と分析によってパラファシアを手動で識別する。
本稿では,ASRと失語症検出の両方を行うために,エンドツーエンド(E2E)を訓練した新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。
論文 参考訳(メタデータ) (2023-12-16T18:22:37Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - From Cloze to Comprehension: Retrofitting Pre-trained Masked Language
Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。
提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。
PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-12-09T10:21:56Z) - Automated Fidelity Assessment for Strategy Training in Inpatient
Rehabilitation using Natural Language Processing [53.096237570992294]
戦略トレーニング (Strategy Training) とは、脳卒中後の認知障害患者に障害を減らすためのスキルを教える、リハビリテーションのアプローチである。
標準化された忠実度評価は治療原則の遵守度を測定するために用いられる。
本研究では,ルールベースNLPアルゴリズム,長短項メモリ(LSTM)モデル,および変換器(BERT)モデルからの双方向エンコーダ表現を開発した。
論文 参考訳(メタデータ) (2022-09-14T15:33:30Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Discriminative Self-training for Punctuation Prediction [5.398944179152948]
自動音声認識(ASR)出力トランスクリプトの発音予測は、ASRトランスクリプトの可読性向上に重要な役割を果たします。
句読点予測の性能向上には,大量のラベル付き音声書き起こしが必要となることが多い。
重み付き損失と識別ラベル平滑化を用いた識別的自己学習手法を提案する。
論文 参考訳(メタデータ) (2021-04-21T03:32:47Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。