論文の概要: Convolutional Neural Network-Based Age Estimation Using B-Mode
Ultrasound Tongue Image
- arxiv url: http://arxiv.org/abs/2101.11245v1
- Date: Wed, 27 Jan 2021 08:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:35:04.060721
- Title: Convolutional Neural Network-Based Age Estimation Using B-Mode
Ultrasound Tongue Image
- Title(参考訳): Bモード超音波舌画像を用いた畳み込みニューラルネットワークによる年齢推定
- Authors: Kele Xu and Tamas G\'abor Csap\'o and Ming Feng
- Abstract要約: 話者の超音波舌画像を用いた年齢推定の実現可能性について検討する。
深層学習の成功に動機づけられた本論文は,この課題に深層学習を活用する。
提案手法は,音声セラピーセッションの性能を評価するツールとして利用できる。
- 参考スコア(独自算出の注目度): 10.100437437151621
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ultrasound tongue imaging is widely used for speech production research, and
it has attracted increasing attention as its potential applications seem to be
evident in many different fields, such as the visual biofeedback tool for
second language acquisition and silent speech interface. Unlike previous
studies, here we explore the feasibility of age estimation using the ultrasound
tongue image of the speakers. Motivated by the success of deep learning, this
paper leverages deep learning on this task. We train a deep convolutional
neural network model on the UltraSuite dataset. The deep model achieves mean
absolute error (MAE) of 2.03 for the data from typically developing children,
while MAE is 4.87 for the data from the children with speech sound disorders,
which suggest that age estimation using ultrasound is more challenging for the
children with speech sound disorder. The developed method can be used a tool to
evaluate the performance of speech therapy sessions. It is also worthwhile to
notice that, although we leverage the ultrasound tongue imaging for our study,
the proposed methods may also be extended to other imaging modalities (e.g.
MRI) to assist the studies on speech production.
- Abstract(参考訳): 超音波舌イメージングは音声生成研究に広く用いられており、視覚バイオフィードバックツール(visual biofeedback tool for second language acquisition)やサイレント音声インタフェース(silent speech interface)など、様々な分野においてその潜在的な応用が注目されている。
従来の研究とは異なり, 話者の超音波舌画像を用いた年齢推定の可能性について検討した。
深層学習の成功に動機づけられた本論文は,この課題に深層学習を活用する。
UltraSuiteデータセット上で、深い畳み込みニューラルネットワークモデルをトレーニングします。
深層モデルでは, 典型的発達障害児のデータでは平均絶対誤差 (mae) が2.03 であり, 音声障害児では mae が 4.87 であり, 音声障害児では超音波による年齢推定がより困難であることが示唆された。
本手法は,音声療法の成績を評価するためのツールとして使用できる。
また, 超音波舌イメージングを応用しても, 提案手法は他の画像モード(例えば, 超音波舌画像)にも拡張可能であることに注意する必要がある。
MRI) 音声生成の研究を支援する。
関連論文リスト
- Exploring Multimodal Approaches for Alzheimer's Disease Detection Using
Patient Speech Transcript and Audio Data [10.782153332144533]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の一種であり、患者の健康に深刻な影響を及ぼす。
本研究では,DmentiaBank Pittデータベースから患者の音声と転写データを用いたAD検出法について検討した。
論文 参考訳(メタデータ) (2023-07-05T12:40:11Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Voice-assisted Image Labelling for Endoscopic Ultrasound Classification
using Neural Networks [48.732863591145964]
本稿では,臨床医が提示した生音声からのEUS画像にラベルを付けるマルチモーダル畳み込みニューラルネットワークアーキテクチャを提案する。
その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。
論文 参考訳(メタデータ) (2021-10-12T21:22:24Z) - Improving Ultrasound Tongue Image Reconstruction from Lip Images Using
Self-supervised Learning and Attention Mechanism [1.52292571922932]
唇の観察可能な画像列が与えられたら、対応する舌の動きを画像化できますか。
本研究では,この問題を自己教師型学習問題として定式化し,学習課題に2ストリーム畳み込みネットワークと長短メモリネットワークを用い,注意機構を組み込んだ。
以上の結果から,本モデルでは実際の超音波舌画像に近い画像を生成することができ,両者のマッチングが可能であることがわかった。
論文 参考訳(メタデータ) (2021-06-20T10:51:23Z) - Self-supervised Contrastive Video-Speech Representation Learning for
Ultrasound [15.517484333872277]
医用画像では、手動のアノテーションは入手するのに高価であり、アクセスできないこともある。
本稿では,マルチモーダル超音波ビデオ音声生データを用いた自己教師型表現学習の課題に対処する。
論文 参考訳(メタデータ) (2020-08-14T23:58:23Z) - Ultra2Speech -- A Deep Learning Framework for Formant Frequency
Estimation and Tracking from Ultrasound Tongue Images [5.606679908174784]
本研究は,超音波(US)舌画像に基づく動脈-音響マッピング問題に対処する。
U2F(Ultrasound2Formant, Ultrasound2Formant, Ultrasound2Formant, U2F)Net)と呼ばれる、被験者のあごの下に置かれた米国の舌画像のマッピングに、新しいディープラーニングアーキテクチャを使用します。
論文 参考訳(メタデータ) (2020-06-29T20:42:11Z) - Deep Learning for Automatic Tracking of Tongue Surface in Real-time
Ultrasound Videos, Landmarks instead of Contours [0.6853165736531939]
本稿では,ディープニューラルネットワークを用いた舌輪郭の自動追尾とリアルタイム舌輪郭追跡の新しい手法を提案する。
提案手法では,2段階の手順の代わりに舌表面のランドマークが追跡される。
本実験により,提案手法の卓越した性能を,一般化,性能,精度の観点から明らかにした。
論文 参考訳(メタデータ) (2020-03-16T00:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。