論文の概要: Using Text Injection to Improve Recognition of Personal Identifiers in
Speech
- arxiv url: http://arxiv.org/abs/2308.07393v1
- Date: Mon, 14 Aug 2023 18:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 15:10:03.653137
- Title: Using Text Injection to Improve Recognition of Personal Identifiers in
Speech
- Title(参考訳): テキストインジェクションを用いた音声認識における個人識別精度の向上
- Authors: Yochai Blau, Rohan Agrawal, Lior Madmony, Gary Wang, Andrew Rosenberg,
Zhehuai Chen, Zorik Gekhman, Genady Beryozkin, Parisa Haghani, Bhuvana
Ramabhadran
- Abstract要約: 我々はPIIカテゴリの認識を改善するためにテキストインジェクションを使用します。
WERを総合的に改善しつつ、医療ノートに名前と日付のリコールを大幅に改善した。
数値桁列に対して文字誤り率と文精度の改善を示す。
- 参考スコア(独自算出の注目度): 23.145765102249722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate recognition of specific categories, such as persons' names, dates or
other identifiers is critical in many Automatic Speech Recognition (ASR)
applications. As these categories represent personal information, ethical use
of this data including collection, transcription, training and evaluation
demands special care. One way of ensuring the security and privacy of
individuals is to redact or eliminate Personally Identifiable Information (PII)
from collection altogether. However, this results in ASR models that tend to
have lower recognition accuracy of these categories. We use text-injection to
improve the recognition of PII categories by including fake textual substitutes
of PII categories in the training data using a text injection method. We
demonstrate substantial improvement to Recall of Names and Dates in medical
notes while improving overall WER. For alphanumeric digit sequences we show
improvements to Character Error Rate and Sentence Accuracy.
- Abstract(参考訳): 人名、日付、その他の識別子などの特定のカテゴリの正確な認識は多くの自動音声認識(ASR)アプリケーションにおいて重要である。
これらのカテゴリは個人情報を表すため、収集、転写、訓練、評価を含むこのデータの倫理的利用は特別なケアを必要とする。
個人のセキュリティとプライバシを確保する一つの方法は、PII(Personally Identible Information)を完全に収集することである。
しかし、この結果、これらのカテゴリの認識精度が低い傾向にあるASRモデルが得られる。
我々はテキストインジェクションを用いて、テキストインジェクション法を用いたトレーニングデータに、PIIカテゴリの偽テキスト置換を組み込むことにより、PIIカテゴリの認識を改善する。
WERを総合的に改善しつつ、医療ノートに名前と日付のリコールを大幅に改善した。
数値桁列に対して文字誤り率と文精度の改善を示す。
関連論文リスト
- Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文 参考訳(メタデータ) (2023-03-20T11:34:37Z) - On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。
我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。
我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文 参考訳(メタデータ) (2023-03-19T22:15:05Z) - A Study of Augmentation Methods for Handwritten Stenography Recognition [0.0]
我々は22の古典的拡張技法について研究し、そのほとんどは他のスクリプトのHTRによく使われている。
我々は,例えばランダム回転,シフト,スケーリングの範囲を含む拡張群を同定し,ステントグラフィー認識の応用に有用である。
論文 参考訳(メタデータ) (2023-03-05T20:06:19Z) - Is Your Model Sensitive? SPeDaC: A New Benchmark for Detecting and
Classifying Sensitive Personal Data [6.116879264068727]
近年,機密情報を扱う対話システムを含むアプリケーションの増加が急速に進んでいる。
これにより、仮想環境における個人データ保護に関する極めて重要な問題が浮き彫りになった。
我々は、機密データカテゴリを識別するための新しい注釈付きベンチマークSPeDaCを紹介する。
論文 参考訳(メタデータ) (2022-08-12T10:57:48Z) - End-to-end speech recognition modeling from de-identified data [1.3400866200396329]
音声認識モデリングに使用されるデータの非識別は、プライバシーを保護する上で重要な要素である。
本稿では,この損失を部分的に回復するための2段階の手法を提案し,評価する。
医療談話の社内データを用いて,本手法の性能評価を行った。
論文 参考訳(メタデータ) (2022-07-12T11:29:52Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Benchmarking Modern Named Entity Recognition Techniques for Free-text
Health Record De-identification [6.026640792312181]
連邦法は、保護された健康情報(PHI)を含むEHRデータの共有を制限する。
本研究は, 深層学習に基づく名前付きエンティティ認識(NER)手法を探索し, 識別タスクにおいてどのメソッドがより優れているかを判定する。
i2b2トレーニングデータセットでモデルをトレーニング,テストし,地域病院から収集したEHRデータを用いて,そのパフォーマンスを質的に評価した。
論文 参考訳(メタデータ) (2021-03-25T01:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。