論文の概要: Evaluation of Google's Voice Recognition and Sentence Classification for
Health Care Applications
- arxiv url: http://arxiv.org/abs/2402.03369v1
- Date: Fri, 2 Feb 2024 03:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:50:40.707669
- Title: Evaluation of Google's Voice Recognition and Sentence Classification for
Health Care Applications
- Title(参考訳): 医療分野におけるGoogleの音声認識と文分類の評価
- Authors: Majbah Uddin, Nathan Huynh, Jose M Vidal, Kevin M Taaffe, Lawrence D
Fredendall, and Joel S Greenstein
- Abstract要約: 本研究では、Periopのスタッフがモバイル技術を使ってワークフローを記録できるように、マイルストーンサービス(Periop)における音声認識技術の使用について検討した。
この実験の目的は、データ入力やクエリタスクを中断することなく、Periopのスタッフがケアを提供することだった。
その結果, 個人の言い回しが最も正確であること, 個人の声を認識するための装置の訓練により, 正確性も向上することが示唆された。
- 参考スコア(独自算出の注目度): 1.385411134620987
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study examined the use of voice recognition technology in perioperative
services (Periop) to enable Periop staff to record workflow milestones using
mobile technology. The use of mobile technology to improve patient flow and
quality of care could be facilitated if such voice recognition technology could
be made robust. The goal of this experiment was to allow the Periop staff to
provide care without being interrupted with data entry and querying tasks.
However, the results are generalizable to other situations where an engineering
manager attempts to improve communication performance using mobile technology.
This study enhanced Google's voice recognition capability by using
post-processing classifiers (i.e., bag-of-sentences, support vector machine,
and maximum entropy). The experiments investigated three factors (original
phrasing, reduced phrasing, and personalized phrasing) at three levels (zero
training repetition, 5 training repetitions, and 10 training repetitions).
Results indicated that personal phrasing yielded the highest correctness and
that training the device to recognize an individual's voice improved
correctness as well. Although simplistic, the bag-of-sentences classifier
significantly improved voice recognition correctness. The classification
efficiency of the maximum entropy and support vector machine algorithms was
found to be nearly identical. These results suggest that engineering managers
could significantly enhance Google's voice recognition technology by using
post-processing techniques, which would facilitate its use in health care and
other applications.
- Abstract(参考訳): 本研究では、周術期サービス(Periop)における音声認識技術を用いて、Periopのスタッフがモバイル技術を用いてワークフローのマイルストーンを記録できるようにする。
このような音声認識技術を堅牢化すれば、モバイル技術による患者の血流改善やケアの質の向上が促進される。
この実験の目的は、データ入力やクエリタスクを中断することなく、Periopのスタッフがケアを提供することだった。
しかし、結果は、エンジニアリングマネージャがモバイル技術を使用してコミュニケーション性能を改善しようとする他の状況に一般化できる。
本研究は,処理後分類器(バッグ・オブ・センテンス,サポート・ベクター・マシン,最大エントロピー)を用いて,googleの音声認識能力を高めるものである。
実験では,3つの要因(原語句,縮小語句,パーソナライズ語句)を3つのレベル(ゼロトレーニング繰り返し,5トレーニング反復,10トレーニング反復)で検討した。
その結果,個人的フラージングは最も正確性が高く,個人の声を認識するための訓練は正確性も向上した。
単純ではあるが、bag-of-sentences分類器は音声認識の正確性を大幅に改善した。
最大エントロピーと支持ベクトルマシンアルゴリズムの分類効率はほぼ同一であることが判明した。
これらの結果は、エンジニアリングマネージャが後処理技術を使用することで、googleの音声認識技術を大幅に向上させることができることを示唆している。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Learning to Communicate Functional States with Nonverbal Expressions for Improved Human-Robot Collaboration [3.5408317027307055]
協調ロボットは、スムーズな対話を可能にするために、内部状態を人間に効果的に伝える必要がある。
雑音の多い人間のフィードバックに基づく強化学習アルゴリズムを提案し, 正確に解釈された非言語音声表現を生成する。
論文 参考訳(メタデータ) (2024-04-30T04:18:21Z) - Deep Multimodal Fusion for Surgical Feedback Classification [70.53297887843802]
外科的フィードバックの5カテゴリー分類を臨床的に検証した。
次に,テキスト,音声,ビデオモダリティの入力から,これらの5つのカテゴリの外科的フィードバックを分類するために,多ラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
論文 参考訳(メタデータ) (2023-12-06T01:59:47Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Building a Noisy Audio Dataset to Evaluate Machine Learning Approaches
for Automatic Speech Recognition Systems [0.0]
この研究は、ノイズの多いオーディオのデータセットを構築する過程を、干渉による劣化したオーディオの特定のケースで提示することを目的としている。
また、このようなデータを評価に利用する分類器の初期結果を示し、認識者の学習プロセスでこのデータセットを使用することの利点を示す。
論文 参考訳(メタデータ) (2021-10-04T13:08:53Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - DHASP: Differentiable Hearing Aid Speech Processing [23.101074347473904]
聴取者の聴力障害に対する適切な増幅は、良好な演奏に不可欠である。
本稿では,補聴器音声処理フレームワークの導入により,最適な適合度を求めるための代替手法を提案する。
このフレームワークは完全に差別化可能であり、効率的なデータ駆動最適化にバックプロパゲーションアルゴリズムを使用することができる。
最初の目的の実験では、ノイズのない音声増幅に有望な結果が示され、自動最適化されたプロセッサは、よく認識された補聴器処方薬の1つを上回る。
論文 参考訳(メタデータ) (2021-03-15T17:34:22Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。