論文の概要: A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation
- arxiv url: http://arxiv.org/abs/2410.22448v1
- Date: Tue, 29 Oct 2024 18:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:02.681854
- Title: A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation
- Title(参考訳): ニューラルコーデック再合成の概観:コーデックと波形生成のギャップを埋める
- Authors: Alexander H. Liu, Qirui Wang, Yuan Gong, James Glass,
- Abstract要約: トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。
異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 65.05719674893999
- License:
- Abstract: Neural Audio Codecs, initially designed as a compression technique, have gained more attention recently for speech generation. Codec models represent each audio frame as a sequence of tokens, i.e., discrete embeddings. The discrete and low-frequency nature of neural codecs introduced a new way to generate speech with token-based models. As these tokens encode information at various levels of granularity, from coarse to fine, most existing works focus on how to better generate the coarse tokens. In this paper, we focus on an equally important but often overlooked question: How can we better resynthesize the waveform from coarse tokens? We point out that both the choice of learning target and resynthesis approach have a dramatic impact on the generated audio quality. Specifically, we study two different strategies based on token prediction and regression, and introduce a new method based on Schr\"odinger Bridge. We examine how different design choices affect machine and human perception.
- Abstract(参考訳): 当初圧縮技術として設計されたニューラルオーディオコーデックは、最近、音声生成においてより注目を集めている。
コーデックモデルは各オーディオフレームをトークンの列、すなわち離散埋め込みとして表現する。
ニューラルコーデックの離散的かつ低周波な性質は、トークンベースのモデルで音声を生成する新しい方法を導入した。
これらのトークンは、粗いものから細かいものまで、さまざまなレベルの情報をエンコードするので、既存のほとんどの研究は粗いトークンをより良く生成する方法に焦点を当てている。
粗いトークンから波形を再合成するにはどうすればよいのか?
学習目標の選択と再生アプローチが、生成した音質に劇的な影響を与えていることを指摘する。
具体的には,トークン予測と回帰に基づく2つの戦略について検討し,Schr\"odinger Bridgeに基づく新しい手法を提案する。
異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
関連論文リスト
- SNAC: Multi-Scale Neural Audio Codec [1.0753191494611891]
マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。
本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:24:05Z) - Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding [24.472393096460774]
本稿では,推論中の速度と品質のトレードオフを,追加のトレーニングを必要とせずに柔軟に行うことができる拡張推論手法を提案する。
私たちの中核となる考え方は、複数の予測ヘッドを使用して、ARモジュールの推論ステップ毎に複数のトークンを予測することです。
実験では,各トークンの予測に要する時間は,ベースラインモデルと比較して4~5に短縮された。
論文 参考訳(メタデータ) (2024-10-17T17:55:26Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - PhaseAug: A Differentiable Augmentation for Speech Synthesis to Simulate
One-to-Many Mapping [0.3277163122167433]
本稿では、各周波数ビンの位相を回転させて1対1のマッピングをシミュレートする、音声合成のための最初の微分可能拡張であるPhaseAugを提案する。
論文 参考訳(メタデータ) (2022-11-08T23:37:05Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。
入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文 参考訳(メタデータ) (2019-04-10T10:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。