論文の概要: Sound Design Strategies for Latent Audio Space Explorations Using Deep
Learning Architectures
- arxiv url: http://arxiv.org/abs/2305.15571v1
- Date: Wed, 24 May 2023 21:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 18:29:55.045979
- Title: Sound Design Strategies for Latent Audio Space Explorations Using Deep
Learning Architectures
- Title(参考訳): ディープラーニングアーキテクチャを用いた潜在音声空間探索のための音響設計戦略
- Authors: K{\i}van\c{c} Tatar, Kelsey Cotton, Daniel Bisig
- Abstract要約: 変分オートエンコーダ(VAE)と呼ばれるよく知られたディープラーニングアーキテクチャを探索する。
VAEは、記号音楽を除いて、潜時音色空間や潜時音色空間を生成するために使われてきた。
本研究では,VAEを生音声データに直接適用し,音声特徴抽出をバイパスする。
- 参考スコア(独自算出の注目度): 1.6114012813668934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The research in Deep Learning applications in sound and music computing have
gathered an interest in the recent years; however, there is still a missing
link between these new technologies and on how they can be incorporated into
real-world artistic practices. In this work, we explore a well-known Deep
Learning architecture called Variational Autoencoders (VAEs). These
architectures have been used in many areas for generating latent spaces where
data points are organized so that similar data points locate closer to each
other. Previously, VAEs have been used for generating latent timbre spaces or
latent spaces of symbolic music excepts. Applying VAE to audio features of
timbre requires a vocoder to transform the timbre generated by the network to
an audio signal, which is computationally expensive. In this work, we apply
VAEs to raw audio data directly while bypassing audio feature extraction. This
approach allows the practitioners to use any audio recording while giving
flexibility and control over the aesthetics through dataset curation. The lower
computation time in audio signal generation allows the raw audio approach to be
incorporated into real-time applications. In this work, we propose three
strategies to explore latent spaces of audio and timbre for sound design
applications. By doing so, our aim is to initiate a conversation on artistic
approaches and strategies to utilize latent audio spaces in sound and music
practices.
- Abstract(参考訳): 音と音楽のコンピューティングにおけるディープラーニングの応用に関する研究は近年関心を集めているが、これらの新技術と実際の芸術的実践にどのように組み込むかには、いまだに無関係である。
本研究では,変分オートエンコーダ(VAE)と呼ばれる,よく知られたディープラーニングアーキテクチャについて検討する。
これらのアーキテクチャは、類似したデータポイントが互いに近接するように、データポイントを整理した潜在空間を生成するために、多くの領域で使用されている。
以前は、VAEはシンボリック音楽以外のラテント音色空間やラテント音色空間を生成するために用いられてきた。
音色の特徴にvaeを適用するには、ネットワークが生成する音色を計算コストの高い音声信号に変換するvocoderが必要である。
本研究では,VAEを生音声データに直接適用し,音声特徴抽出をバイパスする。
このアプローチにより、実践者はデータセットのキュレーションを通じて美学の柔軟性とコントロールを提供しながら、オーディオ記録を使用できるようになる。
音声信号生成における計算時間の短縮により、生オーディオアプローチをリアルタイムアプリケーションに組み込むことができる。
そこで本研究では,音響設計のための潜時空間と音色を探索する3つの手法を提案する。
そこで,我々は,潜伏音空間を音響や音楽の練習に活用するための,芸術的アプローチと戦略について対話することを目的としている。
関連論文リスト
- Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - AudioLM: a Language Modeling Approach to Audio Generation [55.78632108082774]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Unsupervised Learning of Deep Features for Music Segmentation [8.528384027684192]
音楽セグメンテーション(英: Music segmentation)は、音楽セグメンテーションの境界を識別し、ラベル付けする問題である。
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存している。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープ・フィーチャー・埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
論文 参考訳(メタデータ) (2021-08-30T01:55:44Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Artificially Synthesising Data for Audio Classification and Segmentation
to Improve Speech and Music Detection in Radio Broadcast [0.0]
無線信号に類似したデータを人工的に合成する新しい手順を提案する。
この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2021-02-19T14:47:05Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。