論文の概要: Interpreting Audiograms with Multi-stage Neural Networks
- arxiv url: http://arxiv.org/abs/2112.09357v1
- Date: Fri, 17 Dec 2021 07:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 15:43:54.069396
- Title: Interpreting Audiograms with Multi-stage Neural Networks
- Title(参考訳): 多段ニューラルネットワークによるオーディオグラムの解釈
- Authors: Shufan Li and Congxi Lu and Linkai Li and Jirong Duan and Xinping Fu
and Haoshuai Zhou
- Abstract要約: 本稿では,音声グラムの写真から聴力レベルデータを読み取るマルチステージ音声グラム解釈ネットワーク(MAIN)を提案する。
また,提案モデルのトレーニングと評価を行うために,マークと軸のアノテーションを付加したオープンなオーディオグラム画像データセットであるOpen Audiogramを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audiograms are a particular type of line charts representing individuals'
hearing level at various frequencies. They are used by audiologists to diagnose
hearing loss, and further select and tune appropriate hearing aids for
customers. There have been several projects such as Autoaudio that aim to
accelerate this process through means of machine learning. But all existing
models at their best can only detect audiograms in images and classify them
into general categories. They are unable to extract hearing level information
from detected audiograms by interpreting the marks, axis, and lines. To address
this issue, we propose a Multi-stage Audiogram Interpretation Network (MAIN)
that directly reads hearing level data from photos of audiograms. We also
established Open Audiogram, an open dataset of audiogram images with
annotations of marks and axes on which we trained and evaluated our proposed
model. Experiments show that our model is feasible and reliable.
- Abstract(参考訳): オーディオグラムは、様々な周波数における個人の聴力レベルを表す特定の種類の線グラフである。
聴覚学者は聴力障害の診断に使用し、さらに顧客の適切な補聴器の選択と調整を行う。
機械学習によってこのプロセスを加速しようとするAutoaudioのようなプロジェクトもいくつかある。
しかし既存のモデルはすべて、画像中のオーディオグラムを検出でき、それらを一般的なカテゴリに分類できる。
検出されたオーディオグラムから、音符、軸、線を解釈することで、聴覚レベル情報を抽出できない。
この問題に対処するために,我々は,オーディオグラムの写真から聴力レベルデータを直接読み出す多段オーディオグラム解釈ネットワーク(main)を提案する。
また,提案モデルの学習と評価を行うマークと軸のアノテーションを備えた,audiogramイメージのオープンデータセットであるopen audiogramも構築した。
実験によると、我々のモデルは実現可能で信頼性が高い。
関連論文リスト
- AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - Neural Audio Fingerprint for High-specific Audio Retrieval based on
Contrastive Learning [14.60531205031547]
セグメントレベルの探索目的から導出するコントラスト学習フレームワークを提案する。
従来の音声フィンガープリントシステムが故障したセグメントレベルの検索タスクでは,10倍小さいストレージを用いたシステムが有望な結果を示した。
論文 参考訳(メタデータ) (2020-10-22T17:44:40Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。