Fugu-MT 論文翻訳(概要): Speech-Guided Multimodal Learning for Vocal Tract Segmentation in Real-Time MRI

論文の概要: Speech-Guided Multimodal Learning for Vocal Tract Segmentation in Real-Time MRI

arxiv url: http://arxiv.org/abs/2605.18466v1
Date: Mon, 18 May 2026 14:26:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:49.717571
Title: Speech-Guided Multimodal Learning for Vocal Tract Segmentation in Real-Time MRI
Title（参考訳）: リアルタイムMRIにおける声道分割のための音声誘導型マルチモーダル学習
Authors: Daiqi Liu, Lukas Mulzer, Md Hasan, Nyvenn de Castro, Fangxu Xing, Xingjian Kang, Chengze Ye, Siyuan Mei, Yipeng Sun, Tomás Arias-Vergara, Jana Hutter, Jonghye Woo, Andreas Maier, Paula Andrea Pérez-Toro,
Abstract要約: 本研究では,訓練中に音響・音韻の監督を行う3段階の枠組みを提案する。視覚的エンコーダと音響的エンコーダは、二重レベルのクロスモーダルコントラスト事前訓練によって整列される。学習された表現は、クロスアテンションデコーダを通じて融合され、効果的にマルチモーダルな知識を単一モーダル推論パイプラインに転送する。
参考スコア（独自算出の注目度）: 11.821666867155445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Segmenting vocal tract articulators in real-time MRI (rtMRI) is a challenging dynamic image segmentation problem characterized by low contrast, rapid motion, and limited spatial resolution. However, while rtMRI acquisitions may provide synchronized acoustic signals, existing methods discard this information, and the few multimodal approaches that incorporate audio cannot be deployed when audio is unavailable. We propose a three-stage framework that leverages acoustic and phonological supervision during training while requiring only the rtMRI image at inference: phonological representations are converted into spatial bounding-box priors for articulator localization, visual and acoustic encoders are aligned via dual-level cross-modal contrastive pretraining, and the learned representations are fused through a cross-attention decoder, effectively transferring multimodal knowledge into a single-modality inference pipeline. Evaluated on 75-Speaker~Annot-16 and USC-TIMIT datasets, our method outperforms existing unimodal and multimodal methods, demonstrating that multimodal supervision provides transferable benefits for precise and clinically deployable vocal tract segmentation.
Abstract（参考訳）: リアルタイムMRI(リアルタイムMRI)における声道明瞭化は,低コントラスト,高速動作,空間分解能の制限が特徴である。しかし、rtMRIの取得は同期音響信号を提供する可能性があるが、既存の手法はこの情報を破棄し、オーディオを組み込んだ数少ないマルチモーダルアプローチは、音声が利用できない場合に展開できない。音韻的表現は音像定位のための空間境界ボックスに変換され、視覚的および音響的エンコーダは2段階のクロスモーダルコントラスト事前学習によって整列され、学習された表現は、クロスアテンションデコーダを介して融合され、マルチモーダル知識を単一のモーダル推論パイプラインへ効果的に転送する。 75-Speaker〜Annot-16およびUSC-TIMITデータセットで評価し,既存の非モーダル法およびマルチモーダル法より優れており,多モーダル監視が正確かつ臨床的に展開可能な声道分割に対して伝達可能な利点を提供することを示した。

関連論文リスト

Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI [14.398038581000302]
VocSegMRIは,映像,音声,音声の入力を相互注意融合により統合するフレームワークである。 Diceスコアは0.95、Hausdorff Distance(HD_95)は4.20mmである。
論文参考訳（メタデータ） (2025-09-17T07:32:00Z)
Multimodal Segmentation for Vocal Tract Modeling [4.95865031722089]
リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測する。まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。
論文参考訳（メタデータ） (2024-06-22T06:44:38Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。 C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-22T09:44:39Z)
Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention Guided Heterogeneous Translator [12.685817926272161]
我々は,タグ付きMRIのシーケンスから対応する音声波形への変換を,データセットサイズに制限のあるエンドツーエンドのディープラーニングフレームワークを開発した。筆者らの枠組みは, 自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータを基盤としている。実験の結果,63個のタグ付きMRIシークエンスと音声音響を併用し,明瞭な音声波形を生成できることが判明した。
論文参考訳（メタデータ） (2022-06-05T23:08:34Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。