論文の概要: Point Cloud Audio Processing
- arxiv url: http://arxiv.org/abs/2105.02469v1
- Date: Thu, 6 May 2021 07:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:10:42.675956
- Title: Point Cloud Audio Processing
- Title(参考訳): ポイントクラウドオーディオ処理
- Authors: Krishna Subramani, Paris Smaragdis
- Abstract要約: 特徴空間における点の集合として扱うことにより、音声信号を処理する新しい方法を紹介します。
これらの手法がより小さなモデルとなり、訓練されたモデルの性能に対して最小限の効果で入力表現を著しくサブサンプル化できるのを観察する。
- 参考スコア(独自算出の注目度): 18.88427891844357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most audio processing pipelines involve transformations that act on
fixed-dimensional input representations of audio. For example, when using the
Short Time Fourier Transform (STFT) the DFT size specifies a fixed dimension
for the input representation. As a consequence, most audio machine learning
models are designed to process fixed-size vector inputs which often prohibits
the repurposing of learned models on audio with different sampling rates or
alternative representations. We note, however, that the intrinsic spectral
information in the audio signal is invariant to the choice of the input
representation or the sampling rate. Motivated by this, we introduce a novel
way of processing audio signals by treating them as a collection of points in
feature space, and we use point cloud machine learning models that give us
invariance to the choice of representation parameters, such as DFT size or the
sampling rate. Additionally, we observe that these methods result in smaller
models, and allow us to significantly subsample the input representation with
minimal effects to a trained model performance.
- Abstract(参考訳): ほとんどのオーディオ処理パイプラインは、オーディオの固定次元入力表現に作用する変換を含む。
例えば、短い時間フーリエ変換(STFT)を使用する場合、DFTサイズは入力表現の固定次元を指定する。
その結果、ほとんどのオーディオ機械学習モデルは、サンプリングレートや代替表現の異なるオーディオ上での学習モデルの再利用をしばしば禁止する固定サイズのベクトル入力を処理するように設計されている。
しかし,音声信号に含まれる固有スペクトル情報は,入力表現の選択やサンプリング率に不変である。
そこで我々は,特徴空間内の点集合として扱うことで音声信号を処理する新しい手法を導入し,DFTサイズやサンプリングレートなどの表現パラメータの選択に不変性を与えるポイントクラウド機械学習モデルを提案する。
さらに、これらの手法がより小さなモデルをもたらすことを観察し、トレーニングされたモデル性能に最小限の効果で入力表現を著しくサブサンプル化することができる。
関連論文リスト
- Resampling Filter Design for Multirate Neural Audio Effect Processing [9.149661171430257]
ニューラルネットワークの入力と出力における信号再サンプリングの利用を代替ソリューションとして検討する。
カイザー窓FIRフィルタを組み込んだ半帯域IIRフィルタを用いた2段設計により,従来提案されていたモデル調整手法に類似あるいは良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2025-01-30T16:44:49Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - DPATD: Dual-Phase Audio Transformer for Denoising [25.097894984130733]
本稿では,denoising (DPATD) のための2相音響変換器を提案する。
メモリに圧縮された説明可能な注意は効率的で、頻繁に使用される自己注意モジュールよりも早く収束する。
論文 参考訳(メタデータ) (2023-10-30T14:44:59Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Modulation Extraction for LFO-driven Audio Effects [5.740770499256802]
本稿では,複数のディジタルオーディオ効果,パラメータ設定,楽器構成にまたがって処理された音声から任意のLFO信号を抽出できるフレームワークを提案する。
本稿では,抽出モデルを単純な処理ネットワークと組み合わせることで,未知のアナログやデジタルLFO駆動音声効果の終端から終端までのブラックボックスモデルの訓練を可能にすることを示す。
コードを利用可能にし、訓練されたオーディオエフェクトモデルをリアルタイムVSTプラグインで提供します。
論文 参考訳(メタデータ) (2023-05-22T17:33:07Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。