論文の概要: Autoencoding Neural Networks as Musical Audio Synthesizers
- arxiv url: http://arxiv.org/abs/2004.13172v1
- Date: Mon, 27 Apr 2020 20:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 06:18:11.782835
- Title: Autoencoding Neural Networks as Musical Audio Synthesizers
- Title(参考訳): 音楽音声シンセサイザーとしてのニューラルネットワークの自動エンコード
- Authors: Joseph Colonel and Christopher Curro and Sam Keene
- Abstract要約: 自動符号化ニューラルネットワークを用いた音声合成手法を提案する。
オートエンコーダは、短時間のフーリエ変換フレームの圧縮と再構成を訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A method for musical audio synthesis using autoencoding neural networks is
proposed. The autoencoder is trained to compress and reconstruct magnitude
short-time Fourier transform frames. The autoencoder produces a spectrogram by
activating its smallest hidden layer, and a phase response is calculated using
real-time phase gradient heap integration. Taking an inverse short-time Fourier
transform produces the audio signal. Our algorithm is light-weight when
compared to current state-of-the-art audio-producing machine learning
algorithms. We outline our design process, produce metrics, and detail an
open-source Python implementation of our model.
- Abstract(参考訳): 自動符号化ニューラルネットワークを用いた音声合成手法を提案する。
オートエンコーダは、短時間のフーリエ変換フレームの圧縮と再構成を訓練する。
オートエンコーダはその最小の隠れ層を活性化してスペクトログラムを生成し、リアルタイム位相勾配ヒープ積分を用いて位相応答を算出する。
逆短時間フーリエ変換を取ると音声信号が生成される。
我々のアルゴリズムは、現在の最先端の音声生成機械学習アルゴリズムと比較して軽量である。
設計プロセスの概要、メトリクスの作成、およびモデルのオープンソースPython実装の詳細について述べる。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Neural Fourier Filter Bank [18.52741992605852]
本稿では, 効率的かつ高精度な再構築手法を提案する。
ウェーブレットにインスパイアされた我々は、信号が空間的にも周波数的にも分解されるニューラルネットワークを学習する。
論文 参考訳(メタデータ) (2022-12-04T03:45:08Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Mel Spectrogram Inversion with Stable Pitch [0.0]
ボーコーダ(Vocoder)は、音声信号(通常はメルスペクトル)の低次元スペクトル表現を波形に変換することのできるモデルである。
近年,音声認識のために開発されたボコーダモデルは,高いリアリズムを実現する。
音声と比較して、音のテクスチャの構造は新たな課題をもたらす。
論文 参考訳(メタデータ) (2022-08-26T17:01:57Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文 参考訳(メタデータ) (2022-03-30T12:00:18Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z) - RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。
入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文 参考訳(メタデータ) (2019-04-10T10:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。