Fugu-MT 論文翻訳(概要): Multimodal Segmentation for Vocal Tract Modeling

論文の概要: Multimodal Segmentation for Vocal Tract Modeling

arxiv url: http://arxiv.org/abs/2406.15754v1
Date: Sat, 22 Jun 2024 06:44:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 20:45:08.307909
Title: Multimodal Segmentation for Vocal Tract Modeling
Title（参考訳）: 声道モデルのためのマルチモーダルセグメンテーション
Authors: Rishi Jain, Bohan Yu, Peter Wu, Tejas Prabhune, Gopala Anumanchipalli,
Abstract要約: リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測する。まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。
参考スコア（独自算出の注目度）: 4.95865031722089
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate modeling of the vocal tract is necessary to construct articulatory representations for interpretable speech processing and linguistics. However, vocal tract modeling is challenging because many internal articulators are occluded from external motion capture technologies. Real-time magnetic resonance imaging (RT-MRI) allows measuring precise movements of internal articulators during speech, but annotated datasets of MRI are limited in size due to time-consuming and computationally expensive labeling methods. We first present a deep labeling strategy for the RT-MRI video using a vision-only segmentation approach. We then introduce a multimodal algorithm using audio to improve segmentation of vocal articulators. Together, we set a new benchmark for vocal tract modeling in MRI video segmentation and use this to release labels for a 75-speaker RT-MRI dataset, increasing the amount of labeled public RT-MRI data of the vocal tract by over a factor of 9. The code and dataset labels can be found at \url{rishiraij.github.io/multimodal-mri-avatar/}.
Abstract（参考訳）: 解釈可能な音声処理と言語学のための調音表現を構築するためには,声道の正確なモデリングが必要である。しかし, 声道モデリングは, 内部調音器の多くが外的モーションキャプチャー技術から除外されているため, 困難である。リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測するが、MRIの注釈付きデータセットのサイズは、時間的・計算的に高価なラベル付け法によって制限される。まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。今回我々は,MRIビデオセグメンテーションにおける声道モデリングのための新しいベンチマークを作成し,75話者RT-MRIデータセットのラベルをリリースし,声道の公的なRT-MRIデータのラベルを9倍に増やした。コードとデータセットのラベルは \url{rishiraij.github.io/multimodal-mri-avatar/} にある。

関連論文リスト

Frequency-enhanced Multi-granularity Context Network for Efficient Vertebrae Segmentation [33.99418884128739]
椎骨分割精度を向上させるために,周波数強調多粒性コンテキストネットワーク(FMC-Net)を導入する。高周波成分に対しては,HFR(High- frequency Feature Refinement)を適用し,特徴の顕著さを増幅する。低周波成分に対しては、多粒度状態空間モデル(MG-SSM)を用いて、異なる受容場を持つ特徴表現を集約する。
論文参考訳（メタデータ） (2025-06-29T04:53:02Z)
ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文参考訳（メタデータ） (2025-01-08T05:15:43Z)
Open-Source Manually Annotated Vocal Tract Database for Automatic Segmentation from 3D MRI Using Deep Learning: Benchmarking 2D and 3D Convolutional and Transformer Networks [1.0177118388531323]
手作業のセグメンテーションは時間集約的であり、エラーの影響を受けやすい。本研究の目的は,3次元MRIによる声道自動分割のためのディープラーニングアルゴリズムの有効性を評価することである。
論文参考訳（メタデータ） (2025-01-08T00:19:52Z)
MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI [23.54023878857057]
rtMRIからのテキスト予測にマルチモーダル自己教師型AV-HuBERTモデルを適用する新しい手法を提案する。予測されたテキストと期間は音声デコーダによって使用され、任意の新しい音声で一致した音声を合成する。提案手法はUSC-TIMIT MRIコーパス上で15.18%のワード誤り率(WER)を達成し,現状よりも大幅に改善されている。
論文参考訳（メタデータ） (2024-12-25T08:49:43Z)
MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。 fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文参考訳（メタデータ） (2024-09-29T14:03:39Z)
VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文参考訳（メタデータ） (2024-08-11T12:24:23Z)
MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文参考訳（メタデータ） (2024-05-28T00:36:25Z)
Improve Cross-Modality Segmentation by Treating MRI Images as Inverted CT Scans [0.4867169878981935]
簡単な画像インバージョン手法により,MRIデータ上でのCTセグメント化モデルのセグメンテーション品質を大幅に向上できることを示す。イメージインバージョンは実装が簡単で、専用のグラフィックス処理ユニット(GPU)を必要としない
論文参考訳（メタデータ） (2024-05-04T14:02:52Z)
NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文参考訳（メタデータ） (2024-03-27T02:42:52Z)
SegmentAnyBone: A Universal Model that Segments Any Bone at Any Location on MRI [13.912230325828943]
本稿では,MRIにおける骨分割のための汎用的,一般公開的なディープラーニングモデルを提案する。提案モデルでは,完全自動セグメンテーションとプロンプトベースセグメンテーションの2つのモードで動作可能である。 1) さまざまなMRIプロトコルにまたがる新しいMRIデータセットの収集,注釈付けを行い,300以上の注釈付きボリュームと8485個の注釈付きスライスを含む。
論文参考訳（メタデータ） (2024-01-23T18:59:25Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
Explainable unsupervised multi-modal image registration using deep networks [2.197364252030876]
MRI画像登録は、異なるモダリティ、時間点、スライスから幾何学的に「ペア」診断することを目的としている。本研究では,我々のDLモデルが完全に説明可能であることを示し,さらなる医用画像データへのアプローチを一般化するための枠組みを構築した。
論文参考訳（メタデータ） (2023-08-03T19:13:48Z)
Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。 IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文参考訳（メタデータ） (2023-03-28T12:42:12Z)
Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。 IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention Guided Heterogeneous Translator [12.685817926272161]
我々は,タグ付きMRIのシーケンスから対応する音声波形への変換を,データセットサイズに制限のあるエンドツーエンドのディープラーニングフレームワークを開発した。筆者らの枠組みは, 自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータを基盤としている。実験の結果,63個のタグ付きMRIシークエンスと音声音響を併用し,明瞭な音声波形を生成できることが判明した。
論文参考訳（メタデータ） (2022-06-05T23:08:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。