論文の概要: SegINR: Segment-wise Implicit Neural Representation for Sequence Alignment in Neural Text-to-Speech
- arxiv url: http://arxiv.org/abs/2410.04690v1
- Date: Mon, 7 Oct 2024 02:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 02:37:51.048869
- Title: SegINR: Segment-wise Implicit Neural Representation for Sequence Alignment in Neural Text-to-Speech
- Title(参考訳): SegINR:Segment-wise Implicit Neural Representation for Sequence Alignment in Neural Text-to-Speech
- Authors: Minchan Kim, Myeonghun Jeong, Joun Yeop Lee, Nam Soo Kim,
- Abstract要約: 我々は、ニューラルテキスト音声(TTS)の新しいアプローチであるSeginRを提案する。
補間予測や複雑な自己回帰(AR)や非自己回帰(NAR)フレームレベルのシーケンスモデリングに頼ることなく、シーケンスアライメントに対処する。
ゼロショット適応TSシナリオにおける実験により、SegINRは従来の音声品質を計算効率で上回ることを示した。
- 参考スコア(独自算出の注目度): 13.82115484420239
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present SegINR, a novel approach to neural Text-to-Speech (TTS) that addresses sequence alignment without relying on an auxiliary duration predictor and complex autoregressive (AR) or non-autoregressive (NAR) frame-level sequence modeling. SegINR simplifies the process by converting text sequences directly into frame-level features. It leverages an optimal text encoder to extract embeddings, transforming each into a segment of frame-level features using a conditional implicit neural representation (INR). This method, named segment-wise INR (SegINR), models temporal dynamics within each segment and autonomously defines segment boundaries, reducing computational costs. We integrate SegINR into a two-stage TTS framework, using it for semantic token prediction. Our experiments in zero-shot adaptive TTS scenarios demonstrate that SegINR outperforms conventional methods in speech quality with computational efficiency.
- Abstract(参考訳): 本稿では, 持続時間予測器や複雑な自己回帰(AR)や非自己回帰(NAR)フレームレベルのシーケンスモデリングに頼ることなく, シーケンスアライメントに対処する, ニューラルテキスト音声合成(TTS)の新しいアプローチであるSeginRを提案する。
SegINRは、テキストシーケンスを直接フレームレベルの特徴に変換することで、プロセスを単純化する。
最適なテキストエンコーダを利用して埋め込みを抽出し、それぞれを条件付き暗黙的ニューラル表現(INR)を使用してフレームレベルの特徴のセグメントに変換する。
この手法はセグメントワイドINR (SegINR) と呼ばれ、各セグメント内の時間力学をモデル化し、セグメント境界を自律的に定義し、計算コストを削減している。
SegINRを2段階のTSフレームワークに統合し、セマンティックトークン予測に使用する。
ゼロショット適応TSシナリオにおける実験により、SegINRは従来の音声品質を計算効率で上回ることを示した。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - ASTRA: Aligning Speech and Text Representations for Asr without Sampling [20.925353958092874]
ASTRAはテキスト注入による音声認識(ASR)を改善する新しい手法である。
一般的な技法とは異なり、ASTRAは音声とテキストのモダリティ間のシーケンス長をサンプリングする必要がない。
論文 参考訳(メタデータ) (2024-06-10T15:39:04Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Improving the fusion of acoustic and text representations in RNN-T [35.43599666228086]
我々は、より表現力のある表現を生成するために、ゲーティング、バイリニアプーリング、およびそれらを結合ネットワークで組み合わせることを提案する。
提案手法の併用により, 単語誤り率を4%-5%削減できることを示す。
論文 参考訳(メタデータ) (2022-01-25T11:20:50Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。