論文の概要: Multimodal Segmentation for Vocal Tract Modeling
- arxiv url: http://arxiv.org/abs/2406.15754v1
- Date: Sat, 22 Jun 2024 06:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:45:08.307909
- Title: Multimodal Segmentation for Vocal Tract Modeling
- Title(参考訳): 声道モデルのためのマルチモーダルセグメンテーション
- Authors: Rishi Jain, Bohan Yu, Peter Wu, Tejas Prabhune, Gopala Anumanchipalli,
- Abstract要約: リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測する。
まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。
次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。
- 参考スコア(独自算出の注目度): 4.95865031722089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate modeling of the vocal tract is necessary to construct articulatory representations for interpretable speech processing and linguistics. However, vocal tract modeling is challenging because many internal articulators are occluded from external motion capture technologies. Real-time magnetic resonance imaging (RT-MRI) allows measuring precise movements of internal articulators during speech, but annotated datasets of MRI are limited in size due to time-consuming and computationally expensive labeling methods. We first present a deep labeling strategy for the RT-MRI video using a vision-only segmentation approach. We then introduce a multimodal algorithm using audio to improve segmentation of vocal articulators. Together, we set a new benchmark for vocal tract modeling in MRI video segmentation and use this to release labels for a 75-speaker RT-MRI dataset, increasing the amount of labeled public RT-MRI data of the vocal tract by over a factor of 9. The code and dataset labels can be found at \url{rishiraij.github.io/multimodal-mri-avatar/}.
- Abstract(参考訳): 解釈可能な音声処理と言語学のための調音表現を構築するためには,声道の正確なモデリングが必要である。
しかし, 声道モデリングは, 内部調音器の多くが外的モーションキャプチャー技術から除外されているため, 困難である。
リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測するが、MRIの注釈付きデータセットのサイズは、時間的・計算的に高価なラベル付け法によって制限される。
まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。
次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。
今回我々は,MRIビデオセグメンテーションにおける声道モデリングのための新しいベンチマークを作成し,75話者RT-MRIデータセットのラベルをリリースし,声道の公的なRT-MRIデータのラベルを9倍に増やした。
コードとデータセットのラベルは \url{rishiraij.github.io/multimodal-mri-avatar/} にある。
関連論文リスト
- A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。
提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文 参考訳(メタデータ) (2024-09-29T14:03:39Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Improve Cross-Modality Segmentation by Treating MRI Images as Inverted CT Scans [0.4867169878981935]
簡単な画像インバージョン手法により,MRIデータ上でのCTセグメント化モデルのセグメンテーション品質を大幅に向上できることを示す。
イメージインバージョンは実装が簡単で、専用のグラフィックス処理ユニット(GPU)を必要としない
論文 参考訳(メタデータ) (2024-05-04T14:02:52Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - SegmentAnyBone: A Universal Model that Segments Any Bone at Any Location
on MRI [13.912230325828943]
本稿では,MRIにおける骨分割のための汎用的,一般公開的なディープラーニングモデルを提案する。
提案モデルでは,完全自動セグメンテーションとプロンプトベースセグメンテーションの2つのモードで動作可能である。
1) さまざまなMRIプロトコルにまたがる新しいMRIデータセットの収集,注釈付けを行い,300以上の注釈付きボリュームと8485個の注釈付きスライスを含む。
論文 参考訳(メタデータ) (2024-01-23T18:59:25Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Explainable unsupervised multi-modal image registration using deep
networks [2.197364252030876]
MRI画像登録は、異なるモダリティ、時間点、スライスから幾何学的に「ペア」診断することを目的としている。
本研究では,我々のDLモデルが完全に説明可能であることを示し,さらなる医用画像データへのアプローチを一般化するための枠組みを構築した。
論文 参考訳(メタデータ) (2023-08-03T19:13:48Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention
Guided Heterogeneous Translator [12.685817926272161]
我々は,タグ付きMRIのシーケンスから対応する音声波形への変換を,データセットサイズに制限のあるエンドツーエンドのディープラーニングフレームワークを開発した。
筆者らの枠組みは, 自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータを基盤としている。
実験の結果,63個のタグ付きMRIシークエンスと音声音響を併用し,明瞭な音声波形を生成できることが判明した。
論文 参考訳(メタデータ) (2022-06-05T23:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。