論文の概要: Improving Audio Event Recognition with Consistency Regularization
- arxiv url: http://arxiv.org/abs/2509.10391v1
- Date: Fri, 12 Sep 2025 16:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.163106
- Title: Improving Audio Event Recognition with Consistency Regularization
- Title(参考訳): 一貫性規則化による音声イベント認識の改善
- Authors: Shanmuka Sadhu, Weiran Wang,
- Abstract要約: 本稿では,音声イベント認識における整合性正規化手法を提案する。
CRは教師付きベースラインよりも一貫した改善をもたらすことを示す。
CRを20Kのラベル付きサンプルと1.8Mのラベルなしサンプルで半教師付きセットアップに拡張する。
- 参考スコア(独自算出の注目度): 11.862176451777286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consistency regularization (CR), which enforces agreement between model predictions on augmented views, has found recent benefits in automatic speech recognition [1]. In this paper, we propose the use of consistency regularization for audio event recognition, and demonstrate its effectiveness on AudioSet. With extensive ablation studies for both small ($\sim$20k) and large ($\sim$1.8M) supervised training sets, we show that CR brings consistent improvement over supervised baselines which already heavily utilize data augmentation, and CR using stronger augmentation and multiple augmentations leads to additional gain for the small training set. Furthermore, we extend the use of CR into the semi-supervised setup with 20K labeled samples and 1.8M unlabeled samples, and obtain performance improvement over our best model trained on the small set.
- Abstract(参考訳): 拡張ビューにおけるモデル予測の一致を強制する一貫性規則化(CR)は,音声認識における近年の利点を見出した[1]。
本稿では,音声イベント認識における整合性正規化の利用を提案し,その効果をAudioSetで実証する。
小型(20k)および大型(1.8M)の教師付きトレーニングセットに対する広範囲なアブレーション研究により、CRはデータ拡張を多く活用する教師付きベースラインに対して一貫した改善をもたらし、CRはより強力な強化と多重強化を施すことにより、小さなトレーニングセットにさらなる利益をもたらすことを示した。
さらに、20Kラベル付きサンプルと1.8Mラベルなしサンプルを用いて、CRの使用を半教師付きセットアップに拡張し、小セットで訓練された最良のモデルに対して性能改善を行う。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification [0.4681661603096334]
ラベルの弱い補助的なタスクは、学習した話者表現の質を高めることができることを示す。
また、GE2E(Generalized End-to-End Loss)をマルチモーダル入力に拡張し、オーディオ視覚空間における競合性能の実現を実証する。
我々のネットワークは,VoxCeleb1-O/E/Hテストセット上で,0.244%,0.252%,0.441%のEER(Equal Error Rate)を報告した。
論文 参考訳(メタデータ) (2023-09-13T17:45:41Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Boosting Randomized Smoothing with Variance Reduced Classifiers [4.110108749051657]
ランダム化平滑化(Randomized Smoothing, RS)のベースモデルとして, アンサンブルが特に適した選択である理由を考察する。
我々は、この選択を実証的に確認し、複数の設定でアート結果の状態を取得する。
論文 参考訳(メタデータ) (2021-06-13T08:40:27Z) - Improving weakly supervised sound event detection with self-supervised
auxiliary tasks [33.427215114252235]
本稿では,音声イベント検出を主課題とする共有エンコーダアーキテクチャと,自己教師型補助課題のための追加の二次デコーダを提案する。
我々は,DCASE 2019タスク1音響シーンデータのリミックスデータセットを用いて,弱教師付き音響イベント検出のためのフレームワークを実験的に評価した。
提案したフレームワークは、既存のベンチマークモデルを22.3%、12.8%、0、10、20dB SNRの5.9%で上回っている。
論文 参考訳(メタデータ) (2021-06-12T20:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。