論文の概要: Point Cloud Audio Processing
- arxiv url: http://arxiv.org/abs/2105.02469v1
- Date: Thu, 6 May 2021 07:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:10:42.675956
- Title: Point Cloud Audio Processing
- Title(参考訳): ポイントクラウドオーディオ処理
- Authors: Krishna Subramani, Paris Smaragdis
- Abstract要約: 特徴空間における点の集合として扱うことにより、音声信号を処理する新しい方法を紹介します。
これらの手法がより小さなモデルとなり、訓練されたモデルの性能に対して最小限の効果で入力表現を著しくサブサンプル化できるのを観察する。
- 参考スコア(独自算出の注目度): 18.88427891844357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most audio processing pipelines involve transformations that act on
fixed-dimensional input representations of audio. For example, when using the
Short Time Fourier Transform (STFT) the DFT size specifies a fixed dimension
for the input representation. As a consequence, most audio machine learning
models are designed to process fixed-size vector inputs which often prohibits
the repurposing of learned models on audio with different sampling rates or
alternative representations. We note, however, that the intrinsic spectral
information in the audio signal is invariant to the choice of the input
representation or the sampling rate. Motivated by this, we introduce a novel
way of processing audio signals by treating them as a collection of points in
feature space, and we use point cloud machine learning models that give us
invariance to the choice of representation parameters, such as DFT size or the
sampling rate. Additionally, we observe that these methods result in smaller
models, and allow us to significantly subsample the input representation with
minimal effects to a trained model performance.
- Abstract(参考訳): ほとんどのオーディオ処理パイプラインは、オーディオの固定次元入力表現に作用する変換を含む。
例えば、短い時間フーリエ変換(STFT)を使用する場合、DFTサイズは入力表現の固定次元を指定する。
その結果、ほとんどのオーディオ機械学習モデルは、サンプリングレートや代替表現の異なるオーディオ上での学習モデルの再利用をしばしば禁止する固定サイズのベクトル入力を処理するように設計されている。
しかし,音声信号に含まれる固有スペクトル情報は,入力表現の選択やサンプリング率に不変である。
そこで我々は,特徴空間内の点集合として扱うことで音声信号を処理する新しい手法を導入し,DFTサイズやサンプリングレートなどの表現パラメータの選択に不変性を与えるポイントクラウド機械学習モデルを提案する。
さらに、これらの手法がより小さなモデルをもたらすことを観察し、トレーニングされたモデル性能に最小限の効果で入力表現を著しくサブサンプル化することができる。
関連論文リスト
- DPATD: Dual-Phase Audio Transformer for Denoising [25.097894984130733]
本稿では,denoising (DPATD) のための2相音響変換器を提案する。
メモリに圧縮された説明可能な注意は効率的で、頻繁に使用される自己注意モジュールよりも早く収束する。
論文 参考訳(メタデータ) (2023-10-30T14:44:59Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Modulation Extraction for LFO-driven Audio Effects [5.740770499256802]
本稿では,複数のディジタルオーディオ効果,パラメータ設定,楽器構成にまたがって処理された音声から任意のLFO信号を抽出できるフレームワークを提案する。
本稿では,抽出モデルを単純な処理ネットワークと組み合わせることで,未知のアナログやデジタルLFO駆動音声効果の終端から終端までのブラックボックスモデルの訓練を可能にすることを示す。
コードを利用可能にし、訓練されたオーディオエフェクトモデルをリアルタイムVSTプラグインで提供します。
論文 参考訳(メタデータ) (2023-05-22T17:33:07Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Audio-Visual Decision Fusion for WFST-based and seq2seq Models [3.2771898634434997]
雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる
提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。
提案手法は音響のみのWERよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-01-29T13:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。