論文の概要: SIREM: Speech-Informed MRI Reconstruction with Learned Sampling
- arxiv url: http://arxiv.org/abs/2605.18221v1
- Date: Mon, 18 May 2026 11:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.411819
- Title: SIREM: Speech-Informed MRI Reconstruction with Learned Sampling
- Title(参考訳): SIREM:学習サンプリングによる音声インフォームMRI再構成
- Authors: Md Hasan, Nyvenn Castro, Daiqi Liu, Lukas Mulzer, Jana Hutter, Jonghye Woo, Moritz Zaiss, Andreas Maier, Paula A. Perez-Toro,
- Abstract要約: 音声生成のリアルタイム磁気共鳴画像(rtMRI)は、動的声道運動の非侵襲的な可視化を可能にする。
そこで本研究では,SIREMという音声インフォームドMRI再構成フレームワークを提案する。
我々は,USC音声rtMRIベンチマークにおけるSIREMを,グリッド化,ウェーブレットベース圧縮センシング,全変動を含む標準ベースラインに対して評価した。
- 参考スコア(独自算出の注目度): 5.140545130871631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time magnetic resonance imaging (rtMRI) of speech production enables non-invasive visualization of dynamic vocal-tract motion and is valuable for speech science and clinical assessment. However, rtMRI is fundamentally constrained by trade-offs among spatial resolution, temporal resolution, and acquisition speed, often leading to undersampled k-space measurements and degraded reconstructions. We propose SIREM, a speech-informed MRI reconstruction framework that uses synchronized speech as a cross-modal prior. The central idea is that vocal-tract configurations during speech are correlated with the produced acoustics, making part of the image content predictable from audio. SIREM models each frame as a fusion of an audio-driven component and an MRI-driven component through a spatial weighting map. The audio branch predicts articulator-related structure from speech, while the MRI branch reconstructs complementary content from measured k-space data. We further introduce a learnable soft weighting profile over spiral arms, enabling a differentiable study of how k-space arm usage interacts with speech-informed fusion. This yields a unified multimodal formulation that combines audio-driven prediction, MRI reconstruction, and sampling adaptation. We evaluate SIREM on the USC speech rtMRI benchmark against standard baselines, including gridding, wavelet-based compressed sensing, and total variation. SIREM introduces a speech-informed reconstruction paradigm that operates in a substantially higher-throughput regime than iterative methods while preserving anatomically plausible vocal-tract structure. These results establish an initial benchmark for multimodal speech-informed rtMRI reconstruction and highlight the potential of synchronized speech as an auxiliary prior for fast reconstruction. The source code is available at https://github.com/mdhasanai/SIREM
- Abstract(参考訳): 音声生成のリアルタイム磁気共鳴画像(rtMRI)は、動的声道運動の非侵襲的な可視化を可能にし、音声科学と臨床評価に有用である。
しかし、rtMRIは空間分解能、時間分解能、取得速度のトレードオフによって基本的に制約を受けており、しばしばk空間測定のアンサンプ化や劣化した再構成に繋がる。
そこで本研究では,SIREMという音声インフォームドMRI再構成フレームワークを提案する。
中心となる考え方は、音声中の声道構成が生成した音響と相関し、音声から予測可能な画像コンテンツの一部となることである。
SIREMは、空間重み付けマップを通じて、各フレームをオーディオ駆動コンポーネントとMRI駆動コンポーネントの融合としてモデル化する。
音声分岐は音声から調音関連構造を予測し、MRI分岐は測定されたk空間データから相補的内容を再構成する。
さらに、スパイラルアーム上での学習可能な柔らかい重み付けプロファイルを導入し、k空間アームの使用が音声インフォームドフュージョンとどのように相互作用するかの異なる研究を可能にした。
これにより、オーディオ駆動予測、MRI再構成、サンプリング適応を組み合わせた統合されたマルチモーダル定式化が得られる。
我々は,USC音声rtMRIベンチマークにおけるSIREMを,グリッド化,ウェーブレットベース圧縮センシング,全変動を含む標準ベースラインに対して評価した。
SIREMは、解剖学的に妥当な声道構造を保ちながら、反復的な方法よりもはるかに高いスループットで機能する音声インフォームド再構成パラダイムを導入している。
これらの結果は,マルチモーダル音声インフォームド rtMRI 再構成のための初期ベンチマークを確立し,高速再構成の補助的先行として同期音声の可能性を強調した。
ソースコードはhttps://github.com/mdhasanai/SIREMで入手できる。
関連論文リスト
- A Speech-to-Video Synthesis Approach Using Spatio-Temporal Diffusion for Vocal Tract MRI [22.92611067883196]
音声信号から声道の視覚を生成するための音声・ビデオ生成フレームワークを提案する。
本フレームワークは,まずRT-/cine-MRIシーケンスと音声サンプルを前処理し,時間的アライメントを実現する。
合成ビデオにおける声道運動の解析と比較により,健常者および舌癌患者の声道運動に関する枠組みについて検討した。
論文 参考訳(メタデータ) (2025-03-15T12:12:50Z) - ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。
メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-08T05:15:43Z) - MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI [23.54023878857057]
rtMRIからのテキスト予測にマルチモーダル自己教師型AV-HuBERTモデルを適用する新しい手法を提案する。
予測されたテキストと期間は音声デコーダによって使用され、任意の新しい音声で一致した音声を合成する。
提案手法はUSC-TIMIT MRIコーパス上で15.18%のワード誤り率(WER)を達成し,現状よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-25T08:49:43Z) - MambaRecon: MRI Reconstruction with Structured State Space Models [30.506544165999564]
ディープラーニングの出現は、MRIスキャンの迅速な再構築のための最先端の手法の開発を触媒している。
本稿では,長期的文脈感度と再構成の有効性の両立を目的とした,構造化状態空間モデルをコアに採用した革新的なMRI再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:50:10Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Volumetric Reconstruction Resolves Off-Resonance Artifacts in Static and
Dynamic PROPELLER MRI [76.60362295758596]
磁気共鳴イメージング(MRI)におけるオフ共鳴アーティファクトは、画像ボリューム内のスピンの実際の共鳴周波数が空間情報を符号化するのに使用される期待周波数と異なる場合に発生する視覚歪みである。
本稿では,2次元MRI再構成問題を3次元に引き上げ,このオフ共鳴をモデル化するための「スペクトル」次元を導入することで,これらのアーチファクトを解決することを提案する。
論文 参考訳(メタデータ) (2023-11-22T05:44:51Z) - A Long Short-term Memory Based Recurrent Neural Network for
Interventional MRI Reconstruction [50.1787181309337]
本稿では,畳み込み長短期記憶(Conv-LSTM)に基づくリカレントニューラルネットワーク(Recurrent Neural Network, RNN)を提案する。
提案アルゴリズムは,DBSのリアルタイムi-MRIを実現する可能性があり,汎用的なMR誘導介入に使用できる。
論文 参考訳(メタデータ) (2022-03-28T14:03:45Z) - ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。
高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。
パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-01-23T21:58:19Z) - Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI [9.614694312155798]
本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
論文 参考訳(メタデータ) (2021-06-16T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。