論文の概要: Textless NLP -- Zero Resource Challenge with Low Resource Compute
- arxiv url: http://arxiv.org/abs/2409.19015v1
- Date: Tue, 24 Sep 2024 08:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 04:50:50.864500
- Title: Textless NLP -- Zero Resource Challenge with Low Resource Compute
- Title(参考訳): Textless NLP -- 低リソース計算によるゼロリソースチャレンジ
- Authors: Krithiga Ramadass, Abrit Pal Singh, Srihari J, Sheetal Kalyani,
- Abstract要約: この作業は、Textless NLPの相当なトレーニング時間とGPUリソース要件の永続的な課題に対処する。
学習速度スケジューラを効率よく、より高速な収束に活用しながら、トレーニングのステップを大幅に削減する。
英語、タミル語、ベンガル語のデータセットで一貫して良い結果が得られる。
- 参考スコア(独自算出の注目度): 7.494722456816369
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work addresses the persistent challenges of substantial training time and GPU resource requirements even when training lightweight encoder-vocoder models for Textless NLP. We reduce training steps significantly while improving performance by a) leveraging learning rate schedulers for efficient and faster convergence b) optimizing hop length and c) tuning the interpolation scale factors for better audio quality. Additionally, we explore the latent space representation for Indian languages such as Tamil and Bengali for the acoustic unit discovery and voice conversion task. Our approach leverages a quantized encoder architecture, in conjunction with a vocoder which utilizes the proposed mixture of optimized hop length, tuned interpolation scale factors and a cyclic learning rate scheduler. We obtain consistently good results across English, Tamil and Bengali datasets. The proposed method excels in capturing complex linguistic patterns, resulting in clear reconstructed audio during voice conversion with significantly reduced training time.
- Abstract(参考訳): この作業は、Textless NLP用の軽量エンコーダ・ヴォコーダモデルをトレーニングする場合であっても、相当なトレーニング時間とGPUリソース要件の永続的な課題に対処する。
私たちは、パフォーマンスを改善しながら、トレーニングのステップを著しく削減します。
a) 学習率スケジューラを効率よくより高速な収束に活用すること
ロ ホップ長及びホップ長の最適化
c) 補間尺度を調整し、音質を向上させること。
さらに,タミル語やベンガル語などのインドの言語に対する音響単位探索と音声変換のための潜時空間表現について検討する。
提案手法は,最適化ホップ長,調整補間スケール因子,循環学習率スケジューラを組み合わせたボコーダとともに,量子化エンコーダアーキテクチャを利用する。
英語、タミル語、ベンガル語のデータセットで一貫して良い結果が得られる。
提案手法は複雑な言語パターンを抽出し,音声変換中に明瞭に再構成され,訓練時間が大幅に短縮される。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - Linguistic-Enhanced Transformer with CTC Embedding for Speech
Recognition [29.1423215212174]
関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている
本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。
AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
論文 参考訳(メタデータ) (2022-10-25T08:12:59Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。