論文の概要: Approach to Learning Generalized Audio Representation Through Batch
Embedding Covariance Regularization and Constant-Q Transforms
- arxiv url: http://arxiv.org/abs/2303.03591v1
- Date: Tue, 7 Mar 2023 01:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:43:40.645245
- Title: Approach to Learning Generalized Audio Representation Through Batch
Embedding Covariance Regularization and Constant-Q Transforms
- Title(参考訳): バッチ埋め込み共分散正規化と定数q変換による一般化音声表現の学習
- Authors: Ankit Shah, Shuyi Chen, Kejun Zhou, Yue Chen, Bhiksha Raj
- Abstract要約: 本研究は,CQT(Constant-Q Transform)やSTFT(Short-time Fourier Transform)など,さまざまなフロントエンドオーディオプリプロセッシング手法を用いた実験である。
本研究では,人間の聴覚システムから受信した周波数情報のより包括的シミュレーションを明らかにするために,バッチ埋め込み共分散正規化(BECR)という用語を提案する。
- 参考スコア(独自算出の注目度): 27.93796540640328
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: General-purpose embedding is highly desirable for few-shot even zero-shot
learning in many application scenarios, including audio tasks. In order to
understand representations better, we conducted a thorough error analysis and
visualization of HEAR 2021 submission results. Inspired by the analysis, this
work experiments with different front-end audio preprocessing methods,
including Constant-Q Transform (CQT) and Short-time Fourier transform (STFT),
and proposes a Batch Embedding Covariance Regularization (BECR) term to uncover
a more holistic simulation of the frequency information received by the human
auditory system. We tested the models on the suite of HEAR 2021 tasks, which
encompass a broad category of tasks. Preliminary results show (1) the proposed
BECR can incur a more dispersed embedding on the test set, (2) BECR improves
the PaSST model without extra computation complexity, and (3) STFT
preprocessing outperforms CQT in all tasks we tested.
Github:https://github.com/ankitshah009/general_audio_embedding_hear_2021
- Abstract(参考訳): 汎用組込みは、オーディオタスクを含む多くのアプリケーションシナリオにおいて、ゼロショット学習であっても非常に望ましい。
表現をよりよく理解するために, 誤差解析と hear 2021 の提出結果の可視化を行った。
本研究は,CQT(Constant-Q Transform)やSTFT(Short-time Fourier Transform)など,さまざまなフロントエンドオーディオプリプロセッシング手法を用いた実験を行い,人間の聴覚システムから受信した周波数情報のより包括的シミュレーションを明らかにするために,Batch Embedding Covariance Regularization(BECR)という用語を提案する。
我々は、HEAR 2021タスクのスイートで、幅広いタスクのカテゴリを含むモデルをテストした。
予備結果は,(1)テストセットにbecrがより分散した組込みを発生させ,(2)becrが計算の複雑さを増すことなくパストモデルを改善し,(3)stft前処理がcqtより優れていることを示す。
Github:https://github.com/ankitshah009/ general_audio_embedding_hear_2021
関連論文リスト
- RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文 参考訳(メタデータ) (2023-05-24T19:45:56Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Boosting Randomized Smoothing with Variance Reduced Classifiers [4.110108749051657]
ランダム化平滑化(Randomized Smoothing, RS)のベースモデルとして, アンサンブルが特に適した選択である理由を考察する。
我々は、この選択を実証的に確認し、複数の設定でアート結果の状態を取得する。
論文 参考訳(メタデータ) (2021-06-13T08:40:27Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。