論文の概要: Audiogram Digitization Tool for Audiological Reports
- arxiv url: http://arxiv.org/abs/2208.14621v1
- Date: Wed, 31 Aug 2022 03:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:46:17.765236
- Title: Audiogram Digitization Tool for Audiological Reports
- Title(参考訳): 音声レポート用オーディオグラムデジタル化ツール
- Authors: Fran\c{c}ois Charih and James R. Green
- Abstract要約: 本稿では, オンタリオ州労働安全保険委員会と共同で, 判決プロセスの合理化を図ったソリューションを提案する。
そこで,本研究では,聴力閾値を自動的に抽出できる最初のオーディオグラムディジタル化アルゴリズムを提案する。
このアルゴリズムは5dBの精度でほとんどの閾値を抽出し、オーディオグラムをデジタルフォーマットに変換するのに必要な時間を大幅に短縮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A number of private and public insurers compensate workers whose hearing loss
can be directly attributed to excessive exposure to noise in the workplace. The
claim assessment process is typically lengthy and requires significant effort
from human adjudicators who must interpret hand-recorded audiograms, often sent
via fax or equivalent. In this work, we present a solution developed in
partnership with the Workplace Safety Insurance Board of Ontario to streamline
the adjudication process. In particular, we present the first audiogram
digitization algorithm capable of automatically extracting the hearing
thresholds from a scanned or faxed audiology report as a proof-of-concept. The
algorithm extracts most thresholds within 5 dB accuracy, allowing to
substantially lessen the time required to convert an audiogram into digital
format in a semi-supervised fashion, and is a first step towards the automation
of the adjudication process. The source code for the digitization algorithm and
a desktop-based implementation of our NIHL annotation portal is publicly
available on GitHub (https://github.com/GreenCUBIC/AudiogramDigitization).
- Abstract(参考訳): 多くの民間・公共保険会社は、職場の騒音への過度な曝露によって直接的に聴覚障害を負う労働者を補う。
クレーム評価のプロセスは一般的に長く、人間が録音したオーディオグラムを解釈しなければならず、しばしばfaxまたは同等のもの経由で送信される。
本研究は,オンタリオ州の職場安全保険委員会と共同で開発し,裁定プロセスを合理化するソリューションを提案する。
特に,スキャンまたはファックスした音声学レポートから聴力閾値を自動的に抽出できる最初のオーディオグラムデジタル化アルゴリズムを概念実証として提示する。
このアルゴリズムは5dBの精度でほとんどの閾値を抽出し、オーディオグラムを半教師付き方式でデジタルフォーマットに変換するのに必要な時間を大幅に短縮し、偏見処理の自動化に向けた第一歩となる。
デジタル化アルゴリズムのソースコードとNIHLアノテーションポータルのデスクトップベースの実装はGitHubで公開されている(https://github.com/GreenCUBIC/AudiogramDigitization)。
関連論文リスト
- Application of Audio Fingerprinting Techniques for Real-Time Scalable Speech Retrieval and Speech Clusterization [0.0]
本稿では,音声検索の専門的課題に対処するため,既存の手法を応用するための新たな知見を提供する。
単一のリクエストを容易にするのではなく、バッチ処理で迅速かつ正確なオーディオ検索を実現することに注力している。
本論文は,実際の音声からテキストへの変換を行なわずに,音声によるクラスタリングを支援する手法について述べる。
論文 参考訳(メタデータ) (2024-10-29T09:11:28Z) - UNFUSED: UNsupervised Finetuning Using SElf supervised Distillation [53.06337011259031]
音声分類に自己教師付き学習を活用する新しい手法UnFuSeDを提案する。
エンコーダを用いて、実際の微調整ステップの前に、教師なしの微調整のための擬似ラベルを生成する。
UnFuSeDはLAPEベンチマークで最先端の結果を達成し、すべてのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2023-03-10T02:43:36Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Frequency Domain-Based Detection of Generated Audio [16.93803259128475]
そこで本研究では,音声信号を解析して,実際の人間の声と偽の人間の声とを判定する手法を提案する。
提案手法は,音声信号を直接解析する代わりに,周波数,強度,時間的内容を示すスペクトログラム画像に変換する。
論文 参考訳(メタデータ) (2022-05-03T22:27:51Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Multistream neural architectures for cued-speech recognition using a
pre-trained visual feature extractor and constrained CTC decoding [0.0]
Cued Speech (CS)は、聴覚障害者が音声言語を理解するのを助ける視覚コミュニケーションツールである。
提案手法は、視覚特徴抽出に使用される事前訓練された手と唇のトラッカーと、マルチストリームリカレントニューラルネットワークに基づく音声デコーダに基づく。
音素レベルでの復号精度は70.88%であり、提案システムは従来のCNN-HMM復号器よりも優れており、より複雑なベースラインと競合する。
論文 参考訳(メタデータ) (2022-04-11T09:30:08Z) - Interpreting Audiograms with Multi-stage Neural Networks [0.0]
本稿では,音声グラムの写真から聴力レベルデータを読み取るマルチステージ音声グラム解釈ネットワーク(MAIN)を提案する。
また,提案モデルのトレーニングと評価を行うために,マークと軸のアノテーションを付加したオープンなオーディオグラム画像データセットであるOpen Audiogramを構築した。
論文 参考訳(メタデータ) (2021-12-17T07:27:39Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。