論文の概要: VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI
- arxiv url: http://arxiv.org/abs/2509.13767v2
- Date: Mon, 22 Sep 2025 07:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.635777
- Title: VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI
- Title(参考訳): VocSegMRI:リアルタイムMRIにおける高精度声道分割のためのマルチモーダル学習
- Authors: Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro,
- Abstract要約: VocSegMRIは,映像,音声,音声の入力を相互注意融合により統合するフレームワークである。
Diceスコアは0.95、Hausdorff Distance(HD_95)は4.20mmである。
- 参考スコア(独自算出の注目度): 14.398038581000302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately segmenting articulatory structures in real-time magnetic resonance imaging (rtMRI) remains challenging, as most existing methods rely almost entirely on visual cues. Yet synchronized acoustic and phonological signals provide complementary context that can enrich visual information and improve precision. In this paper, we introduce VocSegMRI, a multimodal framework that integrates video, audio, and phonological inputs through cross-attention fusion for dynamic feature alignment. To further enhance cross-modal representation, we incorporate a contrastive learning objective that improves segmentation performance even when the audio modality is unavailable at inference. Evaluated on a sub-set of USC-75 rtMRI dataset, our approach achieves state-of-the-art performance, with a Dice score of 0.95 and a 95th percentile Hausdorff Distance (HD_95) of 4.20 mm, outperforming both unimodal and multimodal baselines. Ablation studies confirm the contributions of cross-attention and contrastive learning to segmentation precision and robustness. These results highlight the value of integrative multimodal modeling for accurate vocal tract analysis.
- Abstract(参考訳): リアルタイム磁気共鳴画像(rtMRI)における調音構造を正確に分割することは依然として困難であり、既存のほとんどの手法はほとんど視覚的手がかりに依存している。
しかし、同期音響信号と音韻信号は相補的な文脈を提供し、視覚情報を豊かにし、精度を向上させる。
本稿では、動的特徴アライメントのためのクロスアテンション融合により、ビデオ、オーディオ、音声入力を統合するマルチモーダルフレームワークであるVocSegMRIを紹介する。
クロスモーダル表現をさらに強化するため,音声モーダルが推論時に利用できない場合でも,セグメンテーション性能を向上させることを目的としたコントラッシブ学習を取り入れた。
提案手法はUSC-75 rtMRIデータセットのサブセットとして評価され,Diceスコア0.95と95%のHausdorff Distance(HD_95)が4.20mmであり,非モードベースラインとマルチモーダルベースラインの両方を上回っている。
アブレーション研究は、セグメンテーション精度とロバストネスに対するクロスアテンションとコントラスト学習の寄与を裏付けるものである。
これらの結果は,正確な声道解析のための統合的マルチモーダルモデリングの価値を浮き彫りにした。
関連論文リスト
- Audio-Vision Contrastive Learning for Phonological Class Recognition [6.476789653980653]
実時間磁気共鳴画像(rtMRI)と音声信号を組み合わせて3つの重要な調音次元を分類する多モードディープラーニングフレームワークを提案する。
USC-TIMITデータセットによる実験結果から,我々のコントラスト学習に基づくアプローチが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-07-23T16:44:22Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval [16.968343177634015]
本稿では,クロスモーダル・インタラクションを強化するために,クロスモーダル・デノイング(CMD)という,効果的なフレームワークと新しい学習タスクを導入する。
具体的には、CMDは、あるモダリティ内のノイズの多い特徴から、別のモダリティから特徴を相互作用させることによって、意味的特徴を再構成するように設計された認知タスクである。
実験の結果,Flickr8kデータセットでは平均R@1で2.0%,SpkenCOCOデータセットでは平均R@1で1.7%,最先端の手法では平均R@1で2.0%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-15T02:42:05Z) - Multimodal Segmentation for Vocal Tract Modeling [4.95865031722089]
リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測する。
まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。
次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。
論文 参考訳(メタデータ) (2024-06-22T06:44:38Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。