論文の概要: Deep Learning for Automatic Tracking of Tongue Surface in Real-time
Ultrasound Videos, Landmarks instead of Contours
- arxiv url: http://arxiv.org/abs/2003.08808v1
- Date: Mon, 16 Mar 2020 00:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 02:28:35.795983
- Title: Deep Learning for Automatic Tracking of Tongue Surface in Real-time
Ultrasound Videos, Landmarks instead of Contours
- Title(参考訳): 実時間超音波映像における舌表面の自動追跡のための深層学習
- Authors: M. Hamed Mozaffari, Won-Sook Lee
- Abstract要約: 本稿では,ディープニューラルネットワークを用いた舌輪郭の自動追尾とリアルタイム舌輪郭追跡の新しい手法を提案する。
提案手法では,2段階の手順の代わりに舌表面のランドマークが追跡される。
本実験により,提案手法の卓越した性能を,一般化,性能,精度の観点から明らかにした。
- 参考スコア(独自算出の注目度): 0.6853165736531939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One usage of medical ultrasound imaging is to visualize and characterize
human tongue shape and motion during a real-time speech to study healthy or
impaired speech production. Due to the low-contrast characteristic and noisy
nature of ultrasound images, it might require expertise for non-expert users to
recognize tongue gestures in applications such as visual training of a second
language. Moreover, quantitative analysis of tongue motion needs the tongue
dorsum contour to be extracted, tracked, and visualized. Manual tongue contour
extraction is a cumbersome, subjective, and error-prone task. Furthermore, it
is not a feasible solution for real-time applications. The growth of deep
learning has been vigorously exploited in various computer vision tasks,
including ultrasound tongue contour tracking. In the current methods, the
process of tongue contour extraction comprises two steps of image segmentation
and post-processing. This paper presents a new novel approach of automatic and
real-time tongue contour tracking using deep neural networks. In the proposed
method, instead of the two-step procedure, landmarks of the tongue surface are
tracked. This novel idea enables researchers in this filed to benefits from
available previously annotated databases to achieve high accuracy results. Our
experiment disclosed the outstanding performances of the proposed technique in
terms of generalization, performance, and accuracy.
- Abstract(参考訳): 医用超音波イメージングの1つの用途は、人間の舌の形と動きをリアルタイムに可視化し、特徴付け、健康的または障害のある音声生成を研究することである。
超音波画像の低コントラスト特性とノイズ特性のため、第2言語の視覚訓練などの応用において、非熟練者が舌のジェスチャーを認識するための専門知識が必要である。
さらに,舌運動の定量的解析には舌背輪郭の抽出,追跡,可視化が必要である。
手動の舌輪郭抽出は面倒で主観的で、誤りやすい作業である。
さらに、リアルタイムアプリケーションでは実現不可能なソリューションである。
深層学習の成長は、超音波舌輪郭追跡など、様々なコンピュータビジョンタスクで活発に活用されている。
現在の方法では、舌輪郭抽出の工程は、画像分割と後処理の2段階からなる。
本稿では,ディープニューラルネットワークを用いた自動・リアルタイム舌輪郭追跡手法を提案する。
提案手法では,2段階の手順の代わりに舌表面のランドマークが追跡される。
この新しいアイデアにより、研究者は、既に注釈付きデータベースが利用できることで、高精度な結果が得られる。
本実験では,提案手法の一般化,性能,精度の面で優れた性能を明らかにした。
関連論文リスト
- Weakly Supervised Object Detection for Automatic Tooth-marked Tongue Recognition [19.34036038278796]
伝統中国医学(TCM)における舌の診断は、個人の健康状態を反映する重要な診断方法である。
歯印のある舌を識別する伝統的な方法は、実践者の経験に依存しているため主観的で矛盾する。
本稿では,視覚変換器と複数インスタンス学習WSVMを用いた全自動Weakly Supervised法を提案する。
論文 参考訳(メタデータ) (2024-08-29T11:31:28Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Improving Ultrasound Tongue Image Reconstruction from Lip Images Using
Self-supervised Learning and Attention Mechanism [1.52292571922932]
唇の観察可能な画像列が与えられたら、対応する舌の動きを画像化できますか。
本研究では,この問題を自己教師型学習問題として定式化し,学習課題に2ストリーム畳み込みネットワークと長短メモリネットワークを用い,注意機構を組み込んだ。
以上の結果から,本モデルでは実際の超音波舌画像に近い画像を生成することができ,両者のマッチングが可能であることがわかった。
論文 参考訳(メタデータ) (2021-06-20T10:51:23Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - Convolutional Neural Network-Based Age Estimation Using B-Mode
Ultrasound Tongue Image [10.100437437151621]
話者の超音波舌画像を用いた年齢推定の実現可能性について検討する。
深層学習の成功に動機づけられた本論文は,この課題に深層学習を活用する。
提案手法は,音声セラピーセッションの性能を評価するツールとして利用できる。
論文 参考訳(メタデータ) (2021-01-27T08:00:47Z) - Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery
Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。
視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。
その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文 参考訳(メタデータ) (2020-12-14T15:53:56Z) - Ultra2Speech -- A Deep Learning Framework for Formant Frequency
Estimation and Tracking from Ultrasound Tongue Images [5.606679908174784]
本研究は,超音波(US)舌画像に基づく動脈-音響マッピング問題に対処する。
U2F(Ultrasound2Formant, Ultrasound2Formant, Ultrasound2Formant, U2F)Net)と呼ばれる、被験者のあごの下に置かれた米国の舌画像のマッピングに、新しいディープラーニングアーキテクチャを使用します。
論文 参考訳(メタデータ) (2020-06-29T20:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。