論文の概要: Speech Audio Generation from dynamic MRI via a Knowledge Enhanced Conditional Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2503.06588v1
- Date: Sun, 09 Mar 2025 12:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:11.434269
- Title: Speech Audio Generation from dynamic MRI via a Knowledge Enhanced Conditional Variational Autoencoder
- Title(参考訳): 知識強化条件変分オートエンコーダを用いた動的MRI音声生成
- Authors: Yaxuan Li, Han Jiang, Yifei Ma, Shihua Qin, Fangxu Xing,
- Abstract要約: 本研究では,2段階の「知識強化+変分推論」フレームワークを提案する。
我々の知る限り、これはダイナミックMRIビデオシーケンスから直接音声を合成する最初の試みの1つである。
- 参考スコア(独自算出の注目度): 6.103954504752016
- License:
- Abstract: Dynamic Magnetic Resonance Imaging (MRI) of the vocal tract has become an increasingly adopted imaging modality for speech motor studies. Beyond image signals, systematic data loss, noise pollution, and audio file corruption can occur due to the unpredictability of the MRI acquisition environment. In such cases, generating audio from images is critical for data recovery in both clinical and research applications. However, this remains challenging due to hardware constraints, acoustic interference, and data corruption. Existing solutions, such as denoising and multi-stage synthesis methods, face limitations in audio fidelity and generalizability. To address these challenges, we propose a Knowledge Enhanced Conditional Variational Autoencoder (KE-CVAE), a novel two-step "knowledge enhancement + variational inference" framework for generating speech audio signals from cine dynamic MRI sequences. This approach introduces two key innovations: (1) integration of unlabeled MRI data for knowledge enhancement, and (2) a variational inference architecture to improve generative modeling capacity. To the best of our knowledge, this is one of the first attempts at synthesizing speech audio directly from dynamic MRI video sequences. The proposed method was trained and evaluated on an open-source dynamic vocal tract MRI dataset recorded during speech. Experimental results demonstrate its effectiveness in generating natural speech waveforms while addressing MRI-specific acoustic challenges, outperforming conventional deep learning-based synthesis approaches.
- Abstract(参考訳): 声道のダイナミックMRI(Dynamic Magnetic Resonance Imaging)は,音声運動研究において画像モダリティとしてますます普及している。
画像信号の他に、MRI取得環境の予測不能により、系統的なデータ損失、ノイズ汚染、オーディオファイルの破損が発生する可能性がある。
このような場合、臨床および研究の双方において、画像から音声を生成することがデータの回復に不可欠である。
しかし、ハードウェアの制約、音響干渉、データ破損のため、これは依然として難しい。
復調法や多段合成法のような既存のソリューションは、音声の忠実度と一般化可能性に制限に直面している。
これらの課題に対処するために,脳磁図から音声信号を生成するための2段階の「知識強化型条件変分自動符号化(KE-CVAE)」フレームワークを提案する。
このアプローチは,(1)知識向上のためのラベルなしMRIデータの統合,(2)生成モデリング能力を向上させるための変分推論アーキテクチャ,という2つの重要なイノベーションを導入している。
我々の知る限り、これはダイナミックMRIビデオシーケンスから直接音声を合成する最初の試みの1つである。
提案手法は,音声中に記録されたオープンソースの動的声道MRIデータセットを用いて訓練し,評価した。
実験により、MRI固有の音響課題に対処しながら、自然な音声波形を生成する効果が示され、従来の深層学習に基づく合成手法よりも優れていた。
関連論文リスト
- Sparse Mixture-of-Experts for Non-Uniform Noise Reduction in MRI Images [4.1738581761446145]
本稿では,MRI画像復調のためのスパース・ミックス・オブ・エキスパート・フレームワークを活用した新しいアプローチを提案する。
各専門家は、異なる画像領域に関連付けられた特定のノイズ特性をターゲットとするために微調整された、特殊化畳み込みニューラルネットワークである。
提案手法は, 人工脳画像と実世界の脳MRIデータの両方において, 最先端の難読化技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-24T03:04:44Z) - ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。
メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-08T05:15:43Z) - Domain-Agnostic Stroke Lesion Segmentation Using Physics-Constrained Synthetic Data [0.15749416770494706]
合成定量的MRI(qMRI)画像を用いた2つの新しい手法を提案し,セグメンテーションモデルの堅牢性と一般化性を高める。
我々は,MPRAGE画像からqMRIマップを推定するために,qMRI推定モデルを訓練した。
2つ目のアプローチは、脳卒中病変のセグメンテーションのための合成データにおいて、組織ラベルのデータセットからqMRIマップを生成する。
論文 参考訳(メタデータ) (2024-12-04T13:52:05Z) - Ethics of Generating Synthetic MRI Vocal Tract Views from the Face [0.3755082744150184]
本稿では,外部-内部相関モデル(E2ICM)の倫理的意義について考察する。
E2ICMは顔の動きを使って内部構成を推測し、MRIの費用対効果を支える技術を提供する。
我々は、Pix2PixGANを用いて、外部の調音データから擬似MRIビューを生成し、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-11T11:12:48Z) - Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from fMRI [20.432212333539628]
本稿では,機能的磁気共鳴画像(fMRI)データに基づく,より粗い音響再構成手法を提案する。
我々は,3つの公開fMRIデータセットであるBrain2Sound,Brain2Music,Brain2Speechについて検証を行った。
復号化時に意味的プロンプトを用いることで,意味的特徴が最適でない場合に,再構成音声の品質を向上させる。
論文 参考訳(メタデータ) (2024-05-29T03:16:14Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Volumetric Reconstruction Resolves Off-Resonance Artifacts in Static and
Dynamic PROPELLER MRI [76.60362295758596]
磁気共鳴イメージング(MRI)におけるオフ共鳴アーティファクトは、画像ボリューム内のスピンの実際の共鳴周波数が空間情報を符号化するのに使用される期待周波数と異なる場合に発生する視覚歪みである。
本稿では,2次元MRI再構成問題を3次元に引き上げ,このオフ共鳴をモデル化するための「スペクトル」次元を導入することで,これらのアーチファクトを解決することを提案する。
論文 参考訳(メタデータ) (2023-11-22T05:44:51Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Multi-Coil MRI Reconstruction Challenge -- Assessing Brain MRI
Reconstruction Models and their Generalizability to Varying Coil
Configurations [40.263770807921524]
深層学習に基づく脳磁気共鳴画像(MRI)再構成法は、MRI取得プロセスを加速する可能性がある。
マルチコイル磁気共鳴画像(MC-MRI)再構成チャレンジは、これらの問題に対処するためのベンチマークを提供する。
本稿では,この課題を実験的に考察し,脳MRI再建モデルのベースラインと状態のセットの結果を要約する。
論文 参考訳(メタデータ) (2020-11-10T04:11:48Z) - Diffusion-Weighted Magnetic Resonance Brain Images Generation with
Generative Adversarial Networks and Variational Autoencoders: A Comparison
Study [55.78588835407174]
本研究では,高画質,多彩で現実的な拡散重み付き磁気共鳴画像が深部生成モデルを用いて合成可能であることを示す。
Introspective Variational AutoencoderとStyle-Based GANの2つのネットワークを医療分野におけるデータ拡張の資格として提示する。
論文 参考訳(メタデータ) (2020-06-24T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。