論文の概要: GoodBye WaveNet -- A Language Model for Raw Audio with Context of 1/2
Million Samples
- arxiv url: http://arxiv.org/abs/2206.08297v1
- Date: Thu, 16 Jun 2022 16:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 16:52:59.813966
- Title: GoodBye WaveNet -- A Language Model for Raw Audio with Context of 1/2
Million Samples
- Title(参考訳): GoodBye WaveNet - 1/2万サンプルのコンテキストを持つ生オーディオのための言語モデル
- Authors: Prateek Verma
- Abstract要約: 本研究では,大規模な文脈で音声波形をモデル化できる自動回帰アーキテクチャを提案する。
我々の作業は、CNNフロントエンドによる潜伏表現を学習し、Transformerエンコーダを使用してこれらの表現に対する依存を学習することで、時間依存の学習に適応する。
我々は、Wavenet、SaSHMI、Sample-RNNといった他のアプローチと比較して、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 2.8935588665357077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling long-term dependencies for audio signals is a particularly
challenging problem, as even small-time scales yield on the order of a hundred
thousand samples. With the recent advent of Transformers, neural architectures
became good at modeling dependencies over longer time scales, but they suffered
from quadratic constraints to scale them. We propose a generative
auto-regressive architecture that can model audio waveforms over quite a large
context, greater than 500,000 samples. Our work is adapted to learn time
dependencies by learning a latent representation by a CNN front-end, and then
learning dependencies over these representations using Transformer encoders,
fully trained end-to-end: thereby allowing to learn representations as it deems
fit for the next sample. Unlike previous works that compared different time
scales to show improvement, we use a standard dataset, with the same number of
parameters/context to show improvements. We achieve a state-of-the-art
performance as compared to other approaches such as Wavenet, SaSHMI, and
Sample-RNN on a standard dataset for modeling long-term structure. This work
gives very exciting direction for the field, given improvements in context
modeling that can be scaled with more data, as well as potentially better
results by using billions/trillions of parameters.
- Abstract(参考訳): 音声信号の長期依存関係をモデル化することは特に難しい問題であり、たとえ小さなスケールであっても10万のサンプルの順序で収まる。
最近のトランスフォーマーの出現により、ニューラルネットワークはより長い時間スケールでの依存関係のモデリングが得意になったが、スケールするには二次的な制約に苦しんだ。
我々は,50万以上のサンプルを含む,かなり広い文脈で音響波形をモデル化できる生成的自己回帰型アーキテクチャを提案する。
私たちの仕事は、cnnフロントエンドで潜在表現を学習し、トランスフォーマーエンコーダを使ってこれらの表現に対する依存関係を学習することで、時間依存を学習するように適応しています。
改善を示すために異なる時間スケールを比較する以前の作業とは異なり、改善を示すために同じ数のパラメータ/コンテキストを持つ標準データセットを使用します。
本研究では,Wavenet,SaSHMI,Sample-RNNといった他の手法と比較して,長期構造をモデル化するための標準データセットにおける最先端性能を実現する。
この作業は、より多くのデータでスケール可能なコンテキストモデリングの改善に加えて、数十億/3のパラメータを使うことで、よりよい結果が得られることを前提に、この分野に非常にエキサイティングな方向を与えます。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies [0.0]
既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。
次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。
大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:47:31Z) - Generative time series models using Neural ODE in Variational
Autoencoders [0.0]
生成時系列モデリングのための変分オートエンコーダ設定にニューラル正規微分方程式を実装した。
開発と研究を容易にするために、コードに対するオブジェクト指向のアプローチが採られた。
論文 参考訳(メタデータ) (2022-01-12T14:38:11Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Long-Span Dependencies in Transformer-based Summarization Systems [38.672160430296536]
トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。
これらのトランスベースのモデルの1つの問題は、入力長が増加するにつれてメモリと計算要件の点でうまくスケールしないことである。
本研究では,事前学習された大規模トランスフォーマーモデルを用いて,抽象的要約における長大な依存関係に対処する。
論文 参考訳(メタデータ) (2021-05-08T23:53:03Z) - Audio Transformers:Transformer Architectures For Large Scale Audio
Understanding. Adieu Convolutions [6.370905925442655]
畳み込み層のないトランスフォーマーアーキテクチャを生音声信号に適用することを提案する。
私達のモデルは最先端の結果を作り出すためにconvolutionalモデルより優秀です。
畳み込みネットワークにインスパイアされたプーリングなどの手法を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
論文 参考訳(メタデータ) (2021-05-01T19:38:30Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。