論文の概要: Improving Speech Inversion Through Self-Supervised Embeddings and Enhanced Tract Variables
- arxiv url: http://arxiv.org/abs/2309.09220v2
- Date: Sat, 7 Sep 2024 13:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 04:03:29.690759
- Title: Improving Speech Inversion Through Self-Supervised Embeddings and Enhanced Tract Variables
- Title(参考訳): 自己監督型埋め込みと拡張トラクト変数による音声インバージョンの改善
- Authors: Ahmed Adel Attia, Yashish M. Siriwardena, Carol Espy-Wilson,
- Abstract要約: 自己教師付き学習(SSL)モデルを用いて得られた音声表現を利用することによる影響について検討する。
また, 改良された幾何学的変換モデルを用いて, 新規なトラクション変数(TV)の組み入れについて検討した。
本研究は、SSLモデルによるリッチな特徴表現の深い影響と、SIシステムの強化機能に対するターゲットテレビによる幾何学的変換の改善を裏付けるものである。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of deep learning models depends significantly on their capacity to encode input features efficiently and decode them into meaningful outputs. Better input and output representation has the potential to boost models' performance and generalization. In the context of acoustic-to-articulatory speech inversion (SI) systems, we study the impact of utilizing speech representations acquired via self-supervised learning (SSL) models, such as HuBERT compared to conventional acoustic features. Additionally, we investigate the incorporation of novel tract variables (TVs) through an improved geometric transformation model. By combining these two approaches, we improve the Pearson product-moment correlation (PPMC) scores which evaluate the accuracy of TV estimation of the SI system from 0.7452 to 0.8141, a 6.9% increase. Our findings underscore the profound influence of rich feature representations from SSL models and improved geometric transformations with target TVs on the enhanced functionality of SI systems.
- Abstract(参考訳): ディープラーニングモデルの性能は、入力機能を効率的にエンコードし、それらを意味のある出力にデコードする能力に大きく依存する。
より優れた入力および出力表現は、モデルの性能と一般化を促進する可能性がある。
本稿では,従来の音響特性と比較して,HuBERTのような自己教師付き学習(SSL)モデルを用いて得られた音声表現を活用することの影響について検討する。
さらに, 改良された幾何学的変換モデルを用いて, 新規なトラクション変数(TV)の組込みについて検討する。
これら2つのアプローチを組み合わせることで、PSMC(Pearson Product-Moment correlation)スコアを改善し、SIシステムのTV推定精度を0.7452から0.8141へと6.9%向上させた。
本研究は、SSLモデルによるリッチな特徴表現の深い影響と、SIシステムの強化機能に対するターゲットテレビによる幾何学的変換の改善を裏付けるものである。
関連論文リスト
- VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space [0.49109372384514843]
VQalAttentは、調整可能な性能と解釈性を備えた偽音声を生成するために設計された軽量モデルである。
以上の結果から,VQalAttentが限られた計算資源を持つ可知音声サンプルを生成する能力を示した。
論文 参考訳(メタデータ) (2024-11-22T00:21:39Z) - Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。
因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:01:05Z) - A Quantitative Approach to Understand Self-Supervised Models as
Cross-lingual Feature Extractors [9.279391026742658]
特徴抽出器としてのモデルの性能に及ぼすモデルサイズ,トレーニング目標,モデルアーキテクチャの影響を解析する。
我々は,抽出した表現の音声情報と合成情報を測定するために,音声合成比(PSR)という新しい尺度を開発した。
論文 参考訳(メタデータ) (2023-11-27T15:58:28Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - Automatic Learning of Subword Dependent Model Scales [50.105894487730545]
本研究では,アテンションエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールを手動チューニングと同様に効果的に学習できることを示す。
提案手法は,手動では調整できないサブワード依存モデル尺度に拡張され,LBSは7%,SWBは3%改善した。
論文 参考訳(メタデータ) (2021-10-18T13:48:28Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Improving Perceptual Quality by Phone-Fortified Perceptual Loss using
Wasserstein Distance for Speech Enhancement [23.933935913913043]
本稿では,SEモデルの訓練を考慮に入れたPFPL( Phone-fortified Perceptual Los)を提案する。
音声情報を効果的に組み込むために、wav2vecモデルの潜在表現に基づいてPFPLを演算する。
実験の結果,PFPLは信号レベルの損失に比べて知覚的評価指標と相関することがわかった。
論文 参考訳(メタデータ) (2020-10-28T18:34:28Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。