Fugu-MT 論文翻訳(概要): Autoencoding Neural Networks as Musical Audio Synthesizers

論文の概要: Autoencoding Neural Networks as Musical Audio Synthesizers

arxiv url: http://arxiv.org/abs/2004.13172v1
Date: Mon, 27 Apr 2020 20:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-09 06:18:11.782835
Title: Autoencoding Neural Networks as Musical Audio Synthesizers
Title（参考訳）: 音楽音声シンセサイザーとしてのニューラルネットワークの自動エンコード
Authors: Joseph Colonel and Christopher Curro and Sam Keene
Abstract要約: 自動符号化ニューラルネットワークを用いた音声合成手法を提案する。オートエンコーダは、短時間のフーリエ変換フレームの圧縮と再構成を訓練する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A method for musical audio synthesis using autoencoding neural networks is proposed. The autoencoder is trained to compress and reconstruct magnitude short-time Fourier transform frames. The autoencoder produces a spectrogram by activating its smallest hidden layer, and a phase response is calculated using real-time phase gradient heap integration. Taking an inverse short-time Fourier transform produces the audio signal. Our algorithm is light-weight when compared to current state-of-the-art audio-producing machine learning algorithms. We outline our design process, produce metrics, and detail an open-source Python implementation of our model.
Abstract（参考訳）: 自動符号化ニューラルネットワークを用いた音声合成手法を提案する。オートエンコーダは、短時間のフーリエ変換フレームの圧縮と再構成を訓練する。オートエンコーダはその最小の隠れ層を活性化してスペクトログラムを生成し、リアルタイム位相勾配ヒープ積分を用いて位相応答を算出する。逆短時間フーリエ変換を取ると音声信号が生成される。我々のアルゴリズムは、現在の最先端の音声生成機械学習アルゴリズムと比較して軽量である。設計プロセスの概要、メトリクスの作成、およびモデルのオープンソースPython実装の詳細について述べる。

関連論文リスト

TokenSynth: A Token-based Neural Synthesizer for Instrument Cloning and Text-to-Instrument [19.395289629201056]
Token Synthは、MIDIトークンとCLAP埋め込みからオーディオトークンを生成する新しいニューラルシンセサイザーである。本モデルは,楽器のクローニング,テキスト間合成,テキスト誘導音色操作を行うことができる。
論文参考訳（メタデータ） (2025-02-13T03:40:30Z)
Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文参考訳（メタデータ） (2024-11-14T03:57:21Z)
An investigation of the reconstruction capacity of stacked convolutional autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文参考訳（メタデータ） (2023-01-18T17:19:04Z)
Neural Fourier Filter Bank [18.52741992605852]
本稿では, 効率的かつ高精度な再構築手法を提案する。ウェーブレットにインスパイアされた我々は、信号が空間的にも周波数的にも分解されるニューラルネットワークを学習する。
論文参考訳（メタデータ） (2022-12-04T03:45:08Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文参考訳（メタデータ） (2022-09-29T04:06:00Z)
Mel Spectrogram Inversion with Stable Pitch [0.0]
ボーコーダ(Vocoder)は、音声信号(通常はメルスペクトル)の低次元スペクトル表現を波形に変換することのできるモデルである。近年,音声認識のために開発されたボコーダモデルは,高いリアリズムを実現する。音声と比較して、音のテクスチャの構造は新たな課題をもたらす。
論文参考訳（メタデータ） (2022-08-26T17:01:57Z)
Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。 MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文参考訳（メタデータ） (2022-07-13T17:59:55Z)
End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文参考訳（メタデータ） (2022-03-30T12:00:18Z)
Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。 We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文参考訳（メタデータ） (2020-02-07T00:04:04Z)
Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文参考訳（メタデータ） (2020-01-08T18:58:02Z)
RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文参考訳（メタデータ） (2019-04-10T10:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。