論文の概要: Automatic audiovisual synchronisation for ultrasound tongue imaging
- arxiv url: http://arxiv.org/abs/2105.15162v1
- Date: Mon, 31 May 2021 17:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:32:08.175177
- Title: Automatic audiovisual synchronisation for ultrasound tongue imaging
- Title(参考訳): 超音波舌画像の自動視線同期
- Authors: Aciel Eshky, Joanne Cleland, Manuel Sam Ribeiro, Eleanor Sugden, Korin
Richmond, Steve Renals
- Abstract要約: 超音波と音声を同時に記録し、このデータを正しく利用するには、2つのモードを正しく同期させる必要がある。
同期化は特別なハードウェアを用いて記録時に達成されるが、このアプローチは実際に失敗し、ユーザビリティが制限される。
本稿では,データ収集後の超音波と音声の自動同期の問題に対処する。
自己教師型ニューラルネットワークによって駆動される自動同期に対する我々のアプローチについて述べる。
- 参考スコア(独自算出の注目度): 35.60751372748571
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ultrasound tongue imaging is used to visualise the intra-oral articulators
during speech production. It is utilised in a range of applications, including
speech and language therapy and phonetics research. Ultrasound and speech audio
are recorded simultaneously, and in order to correctly use this data, the two
modalities should be correctly synchronised. Synchronisation is achieved using
specialised hardware at recording time, but this approach can fail in practice
resulting in data of limited usability. In this paper, we address the problem
of automatically synchronising ultrasound and audio after data collection. We
first investigate the tolerance of expert ultrasound users to synchronisation
errors in order to find the thresholds for error detection. We use these
thresholds to define accuracy scoring boundaries for evaluating our system. We
then describe our approach for automatic synchronisation, which is driven by a
self-supervised neural network, exploiting the correlation between the two
signals to synchronise them. We train our model on data from multiple domains
with different speaker characteristics, different equipment, and different
recording environments, and achieve an accuracy >92.4% on held-out in-domain
data. Finally, we introduce a novel resource, the Cleft dataset, which we
gathered with a new clinical subgroup and for which hardware synchronisation
proved unreliable. We apply our model to this out-of-domain data, and evaluate
its performance subjectively with expert users. Results show that users prefer
our model's output over the original hardware output 79.3% of the time. Our
results demonstrate the strength of our approach and its ability to generalise
to data from new domains.
- Abstract(参考訳): 超音波舌イメージングは、発声中の口内調音器を可視化するために用いられる。
言語や言語療法、音声学の研究など、様々な用途で使用されている。
超音波と音声を同時に記録し、このデータを正しく利用するには、2つのモードを正しく同期させる必要がある。
同期化は特別なハードウェアを用いて記録時に達成されるが、このアプローチは実際に失敗し、ユーザビリティが制限される。
本稿では,データ収集後の超音波と音声の自動同期の問題に対処する。
まず,エキスパート超音波使用者の同期誤差に対する耐性について検討し,誤差検出のしきい値を求める。
これらのしきい値を用いて,システム評価の精度評価境界を定義する。
次に、自己教師付きニューラルネットワークによって駆動される自動同期化のアプローチについて記述し、これら2つの信号間の相関を利用して同期を行う。
我々は、複数のドメインから異なる話者特性、異なる機器、異なる記録環境を持つデータに基づいてモデルを訓練し、保持領域内のデータに対して92.4%の精度を達成する。
最後に,新たな臨床サブグループとハードウェア同期の信頼性が低い新たなリソースであるCleftデータセットを紹介した。
この領域外データに本モデルを適用し,その性能を専門ユーザに対して主観的に評価する。
その結果,本モデルの出力を79.3%のハードウェア出力よりも好むことがわかった。
その結果,我々のアプローチの強みと,新たな領域のデータに一般化する能力が示された。
関連論文リスト
- A contrastive-learning approach for auditory attention detection [11.28441753596964]
本稿では,参加音声信号の潜在表現と対応する脳波信号との差を最小化するために,自己教師付き学習に基づく手法を提案する。
この結果と以前に公表した手法を比較し,検証セット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-24T03:13:53Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - On the Audio-visual Synchronization for Lip-to-Speech Synthesis [22.407313748927393]
GRID, TCD-TIMIT, Lip2Wav などの一般的な音声視覚データセットは, データの非同期性に問題があることを示す。
このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。
論文 参考訳(メタデータ) (2023-03-01T13:35:35Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - TASK3 DCASE2021 Challenge: Sound event localization and detection using
squeeze-excitation residual CNNs [4.4973334555746]
この調査は、昨年同じチームが実施した調査に基づいています。
この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された。
この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2021-07-30T11:34:15Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。