論文の概要: Word Embeddings for Automatic Equalization in Audio Mixing
- arxiv url: http://arxiv.org/abs/2202.08898v1
- Date: Thu, 17 Feb 2022 21:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:54:29.930505
- Title: Word Embeddings for Automatic Equalization in Audio Mixing
- Title(参考訳): 音声混合における単語埋め込みによる自動等化
- Authors: Satvik Venkatesh, David Moffat, Eduardo Reck Miranda
- Abstract要約: 意味記述子を表現するために単語埋め込みを用いるという新しいアイデアを探求する。
この技術を使用して、機械学習モデルは、これまで見たことのないセマンティックディスクリプタのEQ設定を生成することもできる。
その結果、埋め込み層により、ニューラルネットワークはセマンティック記述子を理解することができることがわかった。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, machine learning has been widely adopted to automate the
audio mixing process. Automatic mixing systems have been applied to various
audio effects such as gain-adjustment, stereo panning, equalization, and
reverberation. These systems can be controlled through visual interfaces,
providing audio examples, using knobs, and semantic descriptors. Using semantic
descriptors or textual information to control these systems is an effective way
for artists to communicate their creative goals. Furthermore, sometimes artists
use non-technical words that may not be understood by the mixing system, or
even a mixing engineer. In this paper, we explore the novel idea of using word
embeddings to represent semantic descriptors. Word embeddings are generally
obtained by training neural networks on large corpora of written text. These
embeddings serve as the input layer of the neural network to create a
translation from words to EQ settings. Using this technique, the machine
learning model can also generate EQ settings for semantic descriptors that it
has not seen before. We perform experiments to demonstrate the feasibility of
this idea. In addition, we compare the EQ settings of humans with the
predictions of the neural network to evaluate the quality of predictions. The
results showed that the embedding layer enables the neural network to
understand semantic descriptors. We observed that the models with embedding
layers perform better those without embedding layers, but not as good as human
labels.
- Abstract(参考訳): 近年,音声混合プロセスを自動化するために機械学習が広く採用されている。
ゲイン調整、ステレオパニング、等化、残響といった様々な音響効果に自動ミキシングシステムが適用されている。
これらのシステムはビジュアルインターフェースを通じて制御でき、オーディオ例、ノブ、セマンティックディスクリプタを提供する。
セマンティック記述子やテキスト情報を使用してシステムを制御することは、アーティストが創造的な目標を伝える効果的な方法である。
さらに、アーティストはミキシングシステムやミキシングエンジニアでは理解できないような非技術的な言葉を使うこともある。
本稿では,意味記述子を表現するために単語埋め込みを利用する新しいアイデアについて検討する。
単語埋め込みは一般的に、大量のテキストのコーパス上にニューラルネットワークをトレーニングすることで得られる。
これらの埋め込みは、単語からEQ設定への変換を生成するニューラルネットワークの入力層として機能する。
この技術を使用して、機械学習モデルは、これまで見たことのないセマンティックディスクリプタのEQ設定を生成することもできる。
我々はこのアイデアの実現可能性を示す実験を行う。
さらに,人間のeq設定とニューラルネットワークの予測を比較し,予測の質を評価する。
その結果、埋め込み層により、ニューラルネットワークは意味記述子を理解できることがわかった。
埋め込み層を持つモデルは、埋め込み層を持たないモデルよりも優れているが、人間のラベルほど良いものではない。
関連論文リスト
- Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - A Multi-Grained Self-Interpretable Symbolic-Neural Model For
Single/Multi-Labeled Text Classification [29.075766631810595]
本稿では,テキストのクラスラベルを選挙区木から明示的に予測するシンボリック・ニューラルモデルを提案する。
構造化言語モデルが自己教師型で選挙区木を予測することを学ぶと、訓練データとして、原文と文レベルのラベルしか必要としない。
実験により,下流タスクにおける予測精度が向上できることが実証された。
論文 参考訳(メタデータ) (2023-03-06T03:25:43Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Predicting Emotions Perceived from Sounds [2.9398911304923447]
音化とは、音を通してユーザとデータやイベントを通信する科学である。
本稿では、いくつかの主流および従来型の機械学習アルゴリズムを開発する実験を行う。
知覚された感情を高い精度で予測することが可能である。
論文 参考訳(メタデータ) (2020-12-04T15:01:59Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - A Framework for Generative and Contrastive Learning of Audio
Representations [2.8935588665357077]
本研究では,音声表現のためのコントラスト学習フレームワークを提案する。
また、音声信号の潜在空間を学習するために、アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。
本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。
論文 参考訳(メタデータ) (2020-10-22T05:52:32Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。