論文の概要: Multimodal Segmentation for Vocal Tract Modeling
- arxiv url: http://arxiv.org/abs/2406.15754v1
- Date: Sat, 22 Jun 2024 06:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:45:08.307909
- Title: Multimodal Segmentation for Vocal Tract Modeling
- Title(参考訳): 声道モデルのためのマルチモーダルセグメンテーション
- Authors: Rishi Jain, Bohan Yu, Peter Wu, Tejas Prabhune, Gopala Anumanchipalli,
- Abstract要約: リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測する。
まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。
次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。
- 参考スコア(独自算出の注目度): 4.95865031722089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate modeling of the vocal tract is necessary to construct articulatory representations for interpretable speech processing and linguistics. However, vocal tract modeling is challenging because many internal articulators are occluded from external motion capture technologies. Real-time magnetic resonance imaging (RT-MRI) allows measuring precise movements of internal articulators during speech, but annotated datasets of MRI are limited in size due to time-consuming and computationally expensive labeling methods. We first present a deep labeling strategy for the RT-MRI video using a vision-only segmentation approach. We then introduce a multimodal algorithm using audio to improve segmentation of vocal articulators. Together, we set a new benchmark for vocal tract modeling in MRI video segmentation and use this to release labels for a 75-speaker RT-MRI dataset, increasing the amount of labeled public RT-MRI data of the vocal tract by over a factor of 9. The code and dataset labels can be found at \url{rishiraij.github.io/multimodal-mri-avatar/}.
- Abstract(参考訳): 解釈可能な音声処理と言語学のための調音表現を構築するためには,声道の正確なモデリングが必要である。
しかし, 声道モデリングは, 内部調音器の多くが外的モーションキャプチャー技術から除外されているため, 困難である。
リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測するが、MRIの注釈付きデータセットのサイズは、時間的・計算的に高価なラベル付け法によって制限される。
まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。
次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。
今回我々は,MRIビデオセグメンテーションにおける声道モデリングのための新しいベンチマークを作成し,75話者RT-MRIデータセットのラベルをリリースし,声道の公的なRT-MRIデータのラベルを9倍に増やした。
コードとデータセットのラベルは \url{rishiraij.github.io/multimodal-mri-avatar/} にある。
関連論文リスト
- ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。
メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-08T05:15:43Z) - Open-Source Manually Annotated Vocal Tract Database for Automatic Segmentation from 3D MRI Using Deep Learning: Benchmarking 2D and 3D Convolutional and Transformer Networks [1.0177118388531323]
手作業のセグメンテーションは時間集約的であり、エラーの影響を受けやすい。
本研究の目的は,3次元MRIによる声道自動分割のためのディープラーニングアルゴリズムの有効性を評価することである。
論文 参考訳(メタデータ) (2025-01-08T00:19:52Z) - MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI [23.54023878857057]
rtMRIからのテキスト予測にマルチモーダル自己教師型AV-HuBERTモデルを適用する新しい手法を提案する。
予測されたテキストと期間は音声デコーダによって使用され、任意の新しい音声で一致した音声を合成する。
提案手法はUSC-TIMIT MRIコーパス上で15.18%のワード誤り率(WER)を達成し,現状よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-25T08:49:43Z) - MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities [59.61465292965639]
本稿では,医療応用における生成モデルを活用するための新しいパラダイムについて検討する。
本稿では,テキストプロンプトとマスクに条件付き生成を可能にするMRGenという拡散型データエンジンを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Improve Cross-Modality Segmentation by Treating MRI Images as Inverted CT Scans [0.4867169878981935]
簡単な画像インバージョン手法により,MRIデータ上でのCTセグメント化モデルのセグメンテーション品質を大幅に向上できることを示す。
イメージインバージョンは実装が簡単で、専用のグラフィックス処理ユニット(GPU)を必要としない
論文 参考訳(メタデータ) (2024-05-04T14:02:52Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - SegmentAnyBone: A Universal Model that Segments Any Bone at Any Location
on MRI [13.912230325828943]
本稿では,MRIにおける骨分割のための汎用的,一般公開的なディープラーニングモデルを提案する。
提案モデルでは,完全自動セグメンテーションとプロンプトベースセグメンテーションの2つのモードで動作可能である。
1) さまざまなMRIプロトコルにまたがる新しいMRIデータセットの収集,注釈付けを行い,300以上の注釈付きボリュームと8485個の注釈付きスライスを含む。
論文 参考訳(メタデータ) (2024-01-23T18:59:25Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention
Guided Heterogeneous Translator [12.685817926272161]
我々は,タグ付きMRIのシーケンスから対応する音声波形への変換を,データセットサイズに制限のあるエンドツーエンドのディープラーニングフレームワークを開発した。
筆者らの枠組みは, 自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータを基盤としている。
実験の結果,63個のタグ付きMRIシークエンスと音声音響を併用し,明瞭な音声波形を生成できることが判明した。
論文 参考訳(メタデータ) (2022-06-05T23:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。