論文の概要: LVNS-RAVE: Diversified audio generation with RAVE and Latent Vector Novelty Search
- arxiv url: http://arxiv.org/abs/2404.14063v1
- Date: Mon, 22 Apr 2024 10:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:16:24.007302
- Title: LVNS-RAVE: Diversified audio generation with RAVE and Latent Vector Novelty Search
- Title(参考訳): LVNS-RAVE: RAVEと潜在ベクトルノベルティ探索による分散オーディオ生成
- Authors: Jinyue Guo, Anna-Maria Christodoulou, Balint Laczko, Kyrre Glette,
- Abstract要約: 進化的アルゴリズムと生成的深層学習を組み合わせて現実的な音を生成するLVNS-RAVEを提案する。
提案するアルゴリズムは、サウンドアーティストやミュージシャンのための創造的なツールである。
- 参考スコア(独自算出の注目度): 0.5624791703748108
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evolutionary Algorithms and Generative Deep Learning have been two of the most powerful tools for sound generation tasks. However, they have limitations: Evolutionary Algorithms require complicated designs, posing challenges in control and achieving realistic sound generation. Generative Deep Learning models often copy from the dataset and lack creativity. In this paper, we propose LVNS-RAVE, a method to combine Evolutionary Algorithms and Generative Deep Learning to produce realistic and novel sounds. We use the RAVE model as the sound generator and the VGGish model as a novelty evaluator in the Latent Vector Novelty Search (LVNS) algorithm. The reported experiments show that the method can successfully generate diversified, novel audio samples under different mutation setups using different pre-trained RAVE models. The characteristics of the generation process can be easily controlled with the mutation parameters. The proposed algorithm can be a creative tool for sound artists and musicians.
- Abstract(参考訳): 進化的アルゴリズムと生成的ディープラーニングは、音生成タスクの最も強力なツールの1つです。
しかし、これらには制限がある:進化的アルゴリズムは複雑な設計を必要とする。
生成的ディープラーニングモデルはデータセットからコピーされ、クリエイティビティが欠如することが多い。
本稿では,進化的アルゴリズムと生成的深層学習を組み合わせて現実的で斬新な音を生成するLVNS-RAVEを提案する。
RAVEモデルを音響発生器とし,VGGishモデルを遅延ベクトルノベルティ探索(LVNS)アルゴリズムの新規性評価器として用いる。
報告された実験により, RAVEモデルを用いて, 異なる突然変異条件下で, 多様化した新しい音声サンプルを生成できることが確認された。
生成過程の特徴は変異パラメータで容易に制御できる。
提案するアルゴリズムは、サウンドアーティストやミュージシャンのための創造的なツールである。
関連論文リスト
- One Noise to Rule Them All: Learning a Unified Model of Spatially-Varying Noise Patterns [33.293193191683145]
本稿では,複数種類のノイズを生成できる単一生成モデルを提案する。
また, 逆手続き材料設計の改善に本モデルを適用した。
論文 参考訳(メタデータ) (2024-04-25T02:23:11Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - I2D2: Inductive Knowledge Distillation with NeuroLogic and
Self-Imitation [89.38161262164586]
本稿では,ジェネリック生成の課題に着目し,コモンセンス知識の生成モデルについて検討する。
我々は,西欧の記号的知識蒸留を緩やかに追従する新しいコモンセンス蒸留フレームワークであるI2D2を紹介する。
我々の研究はジェネリックの新たなコーパス、Gen-A-tomicに繋がる。
論文 参考訳(メタデータ) (2022-12-19T04:47:49Z) - Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong
Learning in Task-Oriented Dialogue [80.05509768165135]
生成的再生法は、過去の知識と生成された擬似サンプルを統合するために広く用いられている。
既存の生成的再生法の多くは、モデルを制御するために単一のタスク固有のトークンのみを使用する。
本稿では,タスクの統計を取り入れて生成的再生を向上させるために,生涯学習のための新しい条件付きVAEを提案する。
論文 参考訳(メタデータ) (2022-10-14T13:12:14Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Learning to Generate Levels by Imitating Evolution [7.110423254122942]
機械学習を用いた新しいタイプの反復レベルジェネレータを提案する。
進化過程を模倣するためにモデルをトレーニングし、モデルを使用してレベルを生成します。
このトレーニングされたモデルは、フィットネス機能を必要とせずに、ノイズレベルを逐次修正して、より良いレベルを作ることができる。
論文 参考訳(メタデータ) (2022-06-11T10:44:57Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Generative Deep Learning Techniques for Password Generation [0.5249805590164902]
パスワード推測に照らして,深層学習モデルと確率ベースモデルの幅広い収集について検討した。
本研究では,最先端サンプリング性能を示す変分オートエンコーダを用いた新しい生成深層学習モデルを提案する。
我々は、よく知られたデータセット上の統一制御フレームワークにおいて、徹底的な経験分析を行う。
論文 参考訳(メタデータ) (2020-12-10T14:11:45Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Deep generative models for musical audio synthesis [0.0]
音響モデリングは、パラメトリック制御の下で音を生成するアルゴリズムを開発するプロセスである。
音声合成のための最近の生成的深層学習システムは、任意の音空間を横切ることができるモデルを学習することができる。
本稿では,音響モデリングの実践を変える深層学習の展開を概観する。
論文 参考訳(メタデータ) (2020-06-10T04:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。