Fugu-MT 論文翻訳(概要): Masked Autoencoders Are Articulatory Learners

論文の概要: Masked Autoencoders Are Articulatory Learners

arxiv url: http://arxiv.org/abs/2210.15195v1
Date: Thu, 27 Oct 2022 06:03:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 16:07:50.115466
Title: Masked Autoencoders Are Articulatory Learners
Title（参考訳）: Masked Autoencodersはアート学習者。
Authors: Ahmed Adel Attia, Carol Espy-Wilson
Abstract要約: 調音記録は声道に沿って異なる調音器の位置と動きを追跡する。 XRMB調音記録は、マイクロビームによって追跡できる複数の調音器にペレットを配置する。録音のかなりの部分は誤トラックされており、これまでは使用不可能であった。本研究では,Musked Autoencoders を用いた深層学習に基づく学習手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Articulatory recordings track the positions and motion of different articulators along the vocal tract and are widely used to study speech production and to develop speech technologies such as articulatory based speech synthesizers and speech inversion systems. The University of Wisconsin X-Ray microbeam (XRMB) dataset is one of various datasets that provide articulatory recordings synced with audio recordings. The XRMB articulatory recordings employ pellets placed on a number of articulators which can be tracked by the microbeam. However, a significant portion of the articulatory recordings are mistracked, and have been so far unsuable. In this work, we present a deep learning based approach using Masked Autoencoders to accurately reconstruct the mistracked articulatory recordings for 41 out of 47 speakers of the XRMB dataset. Our model is able to reconstruct articulatory trajectories that closely match ground truth, even when three out of eight articulators are mistracked, and retrieve 3.28 out of 3.4 hours of previously unusable recordings.
Abstract（参考訳）: 調音録音は声道に沿った異なる調音器の位置と動きを追跡し、音声生成の研究や調音ベースの音声合成装置や音声インバージョンシステムといった音声技術の開発に広く用いられている。ウィスコンシン大学x線マイクロビーム(xrmb)データセットは、音声録音と同期した調音記録を提供する様々なデータセットの1つである。 xrmbの調音録音では、マイクロビームで追跡できる多数の調音器にペレットが配置されている。しかし、録音のかなりの部分は誤トラックされており、これまでは使用不可能であった。本研究では,マスキングオートエンコーダを用いて,xrmbデータセットの話者47名中41名を対象に,誤追跡された調音録音を正確に再構成する深層学習手法を提案する。従来使用できなかった3.4時間のうち3.28時間程度を収集し,8つの調音器のうち3つが誤追跡された場合でも,実感に合致した調音軌跡を再現することができる。

関連論文リスト

SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera [61.642416712939095]
SoundLoc3Dはタスクをセット予測問題として扱い、セットの各要素は潜在的な音源に対応する。大規模シミュレーションデータセットにおけるSoundLoc3Dの有効性と優位性を示す。
論文参考訳（メタデータ） (2024-12-22T05:04:17Z)
Multimodal Segmentation for Vocal Tract Modeling [4.95865031722089]
リアルタイム磁気共鳴イメージング(RT-MRI)は、音声中の内音節の正確な動きを計測する。まず、視覚のみのセグメンテーション手法を用いて、RT-MRIビデオにディープラベリング戦略を提案する。次に、音声を用いたマルチモーダルアルゴリズムを導入し、発声器のセグメンテーションを改善する。
論文参考訳（メタデータ） (2024-06-22T06:44:38Z)
Speech motion anomaly detection via cross-modal translation of 4D motion fields from tagged MRI [12.515470808059666]
本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
論文参考訳（メタデータ） (2024-02-10T16:16:24Z)
Large-scale unsupervised audio pre-training for video-to-speech synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文参考訳（メタデータ） (2023-06-27T13:31:33Z)
Synthesizing audio from tongue motion during speech using tagged MRI via transformer [13.442093381065268]
本稿では,4次元運動場に固有の予測情報を2次元分光法を用いて探索する,効率的な変形デコーダ変換ネットワークを提案する。我々の枠組みは、これらの2つのモダリティ間の関係の理解を改善し、言語障害の治療の進展を知らせる可能性を秘めている。
論文参考訳（メタデータ） (2023-02-14T17:27:55Z)
Jointly Learning Visual and Auditory Speech Representations from Raw Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。 RAVEnは視覚音声認識における全自己指導手法を超越している。
論文参考訳（メタデータ） (2022-12-12T21:04:06Z)
Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文参考訳（メタデータ） (2022-08-25T10:01:43Z)
SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文参考訳（メタデータ） (2022-05-04T13:34:07Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Synthesizing Speech from Intracranial Depth Electrodes using an Encoder-Decoder Framework [1.623136488969658]
音声神経補綴は、変形性関節症や変形性関節症患者のコミュニケーションを可能にする可能性がある。近年の進歩は、皮質表面に置かれた電磁気格子から高品質なテキストデコーディングと音声合成を実証している。
論文参考訳（メタデータ） (2021-11-02T09:43:21Z)
Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文参考訳（メタデータ） (2020-12-30T15:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。