論文の概要: Comparative Analysis of the wav2vec 2.0 Feature Extractor
- arxiv url: http://arxiv.org/abs/2308.04286v1
- Date: Tue, 8 Aug 2023 14:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:35:51.661257
- Title: Comparative Analysis of the wav2vec 2.0 Feature Extractor
- Title(参考訳): wav2vec 2.0 Feature Extractorの比較解析
- Authors: Peter Vieting and Ralf Schl\"uter and Hermann Ney
- Abstract要約: 本研究では,コネクショニスト時間分類(CTC)ASRモデルにおいて,標準的な特徴抽出手法を置き換える能力について検討する。
LibriSpeechベンチマークでは従来のFEと競合し、個々のコンポーネントの影響を分析する。
- 参考スコア(独自算出の注目度): 42.18541127866435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems typically use handcrafted feature
extraction pipelines. To avoid their inherent information loss and to achieve
more consistent modeling from speech to transcribed text, neural raw waveform
feature extractors (FEs) are an appealing approach. Also the wav2vec 2.0 model,
which has recently gained large popularity, uses a convolutional FE which
operates directly on the speech waveform. However, it is not yet studied
extensively in the literature. In this work, we study its capability to replace
the standard feature extraction methods in a connectionist temporal
classification (CTC) ASR model and compare it to an alternative neural FE. We
show that both are competitive with traditional FEs on the LibriSpeech
benchmark and analyze the effect of the individual components. Furthermore, we
analyze the learned filters and show that the most important information for
the ASR system is obtained by a set of bandpass filters.
- Abstract(参考訳): 自動音声認識(ASR)システムは通常手作りの特徴抽出パイプラインを使用する。
固有情報損失を回避し、音声から転写テキストへのより一貫したモデリングを達成するために、neural raw waveform feature extractor(fes)は魅力的なアプローチである。
また、最近広く普及したwav2vec 2.0モデルは、音声波形を直接操作する畳み込みFEを使用している。
しかし、文献ではまだ広く研究されていない。
本研究では,ctc (connectionist temporal classification) asrモデルにおける標準特徴抽出法を代替する能力について検討し,それを代替神経feと比較する。
両者とも、librispeechベンチマークにおいて従来のfesと競合し、個々のコンポーネントの影響を分析する。
さらに、学習したフィルタを分析し、ASRシステムにとって最も重要な情報が一連の帯域通過フィルタによって得られることを示す。
関連論文リスト
- SiFiSinger: A High-Fidelity End-to-End Singing Voice Synthesizer based on Source-filter Model [31.280358048556444]
本稿では,音源フィルタ機構に基づくSVS(Advanced End-to-end Song Voice Synsynse)システムを提案する。
提案システムは、基本ピッチ(F0)予測器や波形生成デコーダなどの要素も組み込んでいる。
Opencpopデータセットの実験により,提案モデルの有効性が実証された。
論文 参考訳(メタデータ) (2024-10-16T13:18:45Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Interpretable Acoustic Representation Learning on Breathing and Speech
Signals for COVID-19 Detection [37.01066509527848]
本稿では,新型コロナウイルス検出作業における音声信号の表現学習のアプローチについて述べる。
生音声サンプルは、コサイン変調ガウス関数としてパラメータ化される1次元畳み込みフィルタのバンクで処理される。
フィルタされた出力は、プールされ、ログ圧縮され、自己アテンションベースの関連重み付け機構で使用される。
論文 参考訳(メタデータ) (2022-06-27T15:20:51Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。