論文の概要: Complementing Handcrafted Features with Raw Waveform Using a
Light-weight Auxiliary Model
- arxiv url: http://arxiv.org/abs/2109.02773v1
- Date: Mon, 6 Sep 2021 23:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:24:07.478101
- Title: Complementing Handcrafted Features with Raw Waveform Using a
Light-weight Auxiliary Model
- Title(参考訳): 軽量補助モデルを用いた生波形による手作り特徴の補足
- Authors: Zhongwei Teng, Quchen Fu, Jules White, Maria Powell, Douglas C.
Schmidt
- Abstract要約: 音声処理における新たなトレンドは、生波形から低レベル音声表現をキャプチャすることである。
本稿では,手作り特徴と生波形から学習した特徴を補完する補助Rawnetモデルを提案する。
このアプローチの重要な利点は、比較的低い計算コストで精度を向上させることができることである。
- 参考スコア(独自算出の注目度): 1.7149364927872013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An emerging trend in audio processing is capturing low-level speech
representations from raw waveforms. These representations have shown promising
results on a variety of tasks, such as speech recognition and speech
separation. Compared to handcrafted features, learning speech features via
backpropagation provides the model greater flexibility in how it represents
data for different tasks theoretically. However, results from empirical study
shows that, in some tasks, such as voice spoof detection, handcrafted features
are more competitive than learned features. Instead of evaluating handcrafted
features and raw waveforms independently, this paper proposes an Auxiliary
Rawnet model to complement handcrafted features with features learned from raw
waveforms. A key benefit of the approach is that it can improve accuracy at a
relatively low computational cost. The proposed Auxiliary Rawnet model is
tested using the ASVspoof 2019 dataset and the results from this dataset
indicate that a light-weight waveform encoder can potentially boost the
performance of handcrafted-features-based encoders in exchange for a small
amount of additional computational work.
- Abstract(参考訳): 音声処理における新たなトレンドは、生波形から低レベル音声表現をキャプチャすることである。
これらの表現は、音声認識や音声分離など、様々なタスクで有望な結果を示している。
手作りの機能と比較して、バックプロパゲーションによる音声特徴の学習は、異なるタスクのデータを理論的に表現する方法において、モデルにより大きな柔軟性を与える。
しかし、経験的研究の結果、音声スプーフ検出などのタスクでは、手作りの特徴は学習した特徴よりも競争力が高いことが示されている。
本稿では,手作り特徴と生波形を独立に評価する代わりに,手作り特徴と生波形から学習した特徴を補完する補助Rawnetモデルを提案する。
このアプローチの重要な利点は、比較的低い計算コストで精度を向上させることができることである。
提案する補助rawnetモデルはasvspoof 2019データセットを用いてテストされ、このデータセットの結果、軽量波形エンコーダは少量の計算作業と引き換えに、手作りのフィーチャベースのエンコーダの性能を向上させる可能性があることを示している。
関連論文リスト
- Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - Toward end-to-end interpretable convolutional neural networks for waveform signals [0.7499722271664147]
本稿では,エンドツーエンドの音声深層学習モデルに適した新しい畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
3つの標準音声感情認識データセットを5倍のクロスバリデーションでベンチマークすることで、我々のフレームワークはMelスペクトログラムの機能を最大7%向上させる。
論文 参考訳(メタデータ) (2024-05-03T02:24:27Z) - Feature Normalization for Fine-tuning Self-Supervised Models in Speech
Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。
本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。
提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T10:03:33Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。