論文の概要: Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention
Guided Heterogeneous Translator
- arxiv url: http://arxiv.org/abs/2206.02284v2
- Date: Thu, 9 Jun 2022 16:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 07:16:07.861057
- Title: Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention
Guided Heterogeneous Translator
- Title(参考訳): 自己注意誘導不均質トランスレータによる音声合成のためのタグ付きMRIシーケンス
- Authors: Xiaofeng Liu, Fangxu Xing, Jerry L. Prince, Jiachen Zhuo, Maureen
Stone, Georges El Fakhri, Jonghye Woo
- Abstract要約: 我々は,タグ付きMRIのシーケンスから対応する音声波形への変換を,データセットサイズに制限のあるエンドツーエンドのディープラーニングフレームワークを開発した。
筆者らの枠組みは, 自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータを基盤としている。
実験の結果,63個のタグ付きMRIシークエンスと音声音響を併用し,明瞭な音声波形を生成できることが判明した。
- 参考スコア(独自算出の注目度): 12.685817926272161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the underlying relationship between tongue and oropharyngeal
muscle deformation seen in tagged-MRI and intelligible speech plays an
important role in advancing speech motor control theories and treatment of
speech related-disorders. Because of their heterogeneous representations,
however, direct mapping between the two modalities -- i.e., two-dimensional
(mid-sagittal slice) plus time tagged-MRI sequence and its corresponding
one-dimensional waveform -- is not straightforward. Instead, we resort to
two-dimensional spectrograms as an intermediate representation, which contains
both pitch and resonance, from which to develop an end-to-end deep learning
framework to translate from a sequence of tagged-MRI to its corresponding audio
waveform with limited dataset size.~Our framework is based on a novel fully
convolutional asymmetry translator with guidance of a self residual attention
strategy to specifically exploit the moving muscular structures during
speech.~In addition, we leverage a pairwise correlation of the samples with the
same utterances with a latent space representation disentanglement
strategy.~Furthermore, we incorporate an adversarial training approach with
generative adversarial networks to offer improved realism on our generated
spectrograms.~Our experimental results, carried out with a total of 63
tagged-MRI sequences alongside speech acoustics, showed that our framework
enabled the generation of clear audio waveforms from a sequence of tagged-MRI,
surpassing competing methods. Thus, our framework provides the great potential
to help better understand the relationship between the two modalities.
- Abstract(参考訳): タグ付きMRIで見られる舌と咽頭筋の変形について理解することは,音声運動制御理論の進展と発話関連障害の治療において重要な役割を担っている。
しかし、それらの不均一な表現のため、2つのモーダル、すなわち2次元(中軸スライス)と時間タグ付きMRIシーケンスとそれに対応する1次元波形の直接マッピングは簡単ではない。
その代わりに、ピッチと共鳴の両方を含む中間表現として2次元スペクトログラムを用いて、タグ付きMRIのシーケンスからデータセットサイズに制限のある対応する音声波形に変換するためのエンドツーエンドのディープラーニングフレームワークを開発する。
われわれのフレームワークは、音声中の筋肉構造を具体的に活用するための自己相対的注意戦略を指導した、新しい畳み込み非対称性トランスレータに基づいている。
さらに,同じ発話と潜在空間表現の非絡み合い戦略を併用して,サンプルのペアワイズ相関を利用する。
さらに, 生成したスペクトログラムのリアリズムを改善するために, 生成型adversarial networkを用いた敵意トレーニングアプローチも取り入れた。
以上の結果から, 音声音響と合わせて63個のタグ付きMRIシーケンスで実験を行い, 競合する手法を超越して, タグ付きMRIの連続から明瞭な音声波形を生成できることが判明した。
したがって、我々のフレームワークは、2つのモダリティ間の関係をよりよく理解するための大きな可能性を提供します。
関連論文リスト
- Multimodal Segmentation for Vocal Tract Modeling [4.95865031722089]
リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測する。
まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。
次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。
論文 参考訳(メタデータ) (2024-06-22T06:44:38Z) - Speech motion anomaly detection via cross-modal translation of 4D motion
fields from tagged MRI [12.515470808059666]
本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。
これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。
一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
論文 参考訳(メタデータ) (2024-02-10T16:16:24Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix
Factorization via Plastic Transformer [11.91784203088159]
重み付けマップを対応する音声波形に変換するためのエンドツーエンドのディープラーニングフレームワークを開発する。
我々のフレームワークは、重み付けマップから音声音声波形を合成することができ、従来の畳み込みモデルやトランスフォーマーモデルよりも優れている。
論文 参考訳(メタデータ) (2023-09-26T00:21:17Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Synthesizing audio from tongue motion during speech using tagged MRI via
transformer [13.442093381065268]
本稿では,4次元運動場に固有の予測情報を2次元分光法を用いて探索する,効率的な変形デコーダ変換ネットワークを提案する。
我々の枠組みは、これらの2つのモダリティ間の関係の理解を改善し、言語障害の治療の進展を知らせる可能性を秘めている。
論文 参考訳(メタデータ) (2023-02-14T17:27:55Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Learning Joint Articulatory-Acoustic Representations with Normalizing
Flows [7.183132975698293]
可逆ニューラルネットワークモデルを用いて母音の調音領域と音響領域の結合潜時表現を求める。
提案手法は調音から音響へのマッピングと音響から調音へのマッピングの両方を実現し,両領域の同時符号化の実現に成功していることを示す。
論文 参考訳(メタデータ) (2020-05-16T04:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。