論文の概要: End-to-End and Self-Supervised Learning for ComParE 2022 Stuttering
Sub-Challenge
- arxiv url: http://arxiv.org/abs/2207.10817v1
- Date: Wed, 20 Jul 2022 11:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:49:18.724114
- Title: End-to-End and Self-Supervised Learning for ComParE 2022 Stuttering
Sub-Challenge
- Title(参考訳): 2022ストータリングサブチャレンジを用いたエンドツーエンド・自己教師付き学習
- Authors: Shakeel Ahmad Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni
- Abstract要約: 我々は、ACM Multimedia 2022 ComParE Challengeに参加するために、自己指導型で訓練されたエンドツーエンドおよび音声埋め込みベースのシステムを提案する。
我々は、KSoFデータセット上での散乱検出のために、事前学習したWav2Vec2.0モデルからの埋め込みを利用する。
提案する自己教師型SDシステムは,それぞれ36.9%,テストセットで41.0%のUARを実現する。
- 参考スコア(独自算出の注目度): 7.42741711946564
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we present end-to-end and speech embedding based systems
trained in a self-supervised fashion to participate in the ACM Multimedia 2022
ComParE Challenge, specifically the stuttering sub-challenge. In particular, we
exploit the embeddings from the pre-trained Wav2Vec2.0 model for stuttering
detection (SD) on the KSoF dataset. After embedding extraction, we benchmark
with several methods for SD. Our proposed self-supervised based SD system
achieves a UAR of 36.9% and 41.0% on validation and test sets respectively,
which is 31.32% (validation set) and 1.49% (test set) higher than the best
(DeepSpectrum) challenge baseline (CBL). Moreover, we show that concatenating
layer embeddings with Mel-frequency cepstral coefficients (MFCCs) features
further improves the UAR of 33.81% and 5.45% on validation and test sets
respectively over the CBL. Finally, we demonstrate that the summing information
across all the layers of Wav2Vec2.0 surpasses the CBL by a relative margin of
45.91% and 5.69% on validation and test sets respectively. Grand-challenge:
Computational Paralinguistics ChallengE
- Abstract(参考訳): 本稿では,ACM Multimedia 2022 ComParE Challengeに参加するために,自己指導型で訓練されたエンドツーエンド・音声埋め込みシステムについて述べる。
特に,プリトレーニングされたwav2vec2.0モデルからの埋め込みを,ksofデータセット上のsd(stuttering detection)に活用する。
埋め込み抽出後,SDのいくつかの手法をベンチマークした。
提案した自己教師型SDシステムは, 検証とテストセットにおいてそれぞれ36.9%, 41.0%のUARを達成し, 検証セットは31.32%, テストセットは1.49%と最良(DeepSpectrum)チャレンジベースライン(CBL)よりも高い。
さらに,メル周波数ケプストラム係数 (MFCC) との結合層埋め込みは,それぞれCBL上での検証およびテストセットにおいて,UARを33.81%,5.45%向上させることを示した。
最後に、wav2vec2.0の全層にわたる合計情報は、検証とテストセットにおいてそれぞれ45.91%と5.69%の相対マージンでcblを上回っていることを実証する。
大辞典:計算パラ言語学
関連論文リスト
- Solution for OOD-CV Workshop SSB Challenge 2024 (Open-Set Recognition Track) [6.998958192483059]
課題は、テストサンプルが分類器のトレーニングセットのセマンティッククラスに属しているかどうかを特定することであった。
我々は,ポストホックOOD検出技術とテスト時間拡張戦略を融合したハイブリッド手法を提案する。
AUROCとFPR95のスコアのバランスを保ちながら,テスト時間拡張とポストホックOODを併用したベストパフォーマンス手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:28:14Z) - Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR)
CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。
我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文 参考訳(メタデータ) (2024-02-28T09:27:29Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 [4.022057598291766]
VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。
トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。
トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
論文 参考訳(メタデータ) (2022-09-19T13:35:36Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - End-to-End Semi-Supervised Object Detection with Soft Teacher [63.26266730447914]
本稿では,従来の複雑な多段階法とは対照的に,終端から終端までの半教師付き物体検出手法を提案する。
提案手法は, 種々のラベル付け比において, 従来手法よりも大きなマージンで性能を向上する。
最先端のSwin Transformerベースの物体検出器では、検出精度を+1.5 mAPで大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T17:59:30Z) - Comparing CTC and LFMMI for out-of-domain adaptation of wav2vec 2.0
acoustic model [6.338178373376447]
wav2vec 2.0自己監督プリトレーニングが、接続主義の時系列分類におけるオーバーフィット問題を緩和するのに役立つかどうかを検討する。
wav2vec 2.0モデルの教師付き適応には、E2E-LFMMIとCTCの両方が同様の結果を得る。
babel言語では,スワヒリ語では26%,スワヒリ語では23%,タガログ語では17%,タガログ語では17%の相対的改善が得られた。
論文 参考訳(メタデータ) (2021-04-06T14:56:04Z) - OpenKBP: The open-access knowledge-based planning grand challenge [0.6157382820537718]
我々は,2020年のAAPMグランドチャレンジであるOpenKBPを主催し,参加者にCT画像の量を予測する最善の方法の開発を依頼した。
1)3次元線量分布を評価する線量スコアと,(2)DVH測定値を評価する線量ヒストグラム(DVH)スコアの2つの異なるスコアで評価した。
チャレンジには28カ国から195人の参加者が参加し、73人の参加者が検証段階で44のチームを編成し、合計で1750の応募を受けた。
論文 参考訳(メタデータ) (2020-11-28T06:45:06Z) - Exploration of End-to-End ASR for OpenSTT -- Russian Open Speech-to-Text
Dataset [73.66530509749305]
本稿では,ロシア最大のオープンソース言語データセットであるOpenSTTのエンドツーエンド自動音声認識システム(ASR)について検討する。
CTC/Attention, RNN-Transducer, Transformer など,既存のエンドツーエンドアプローチの評価を行った。
利用可能な3つの検証セット(電話、YouTube、書籍)について、私たちの最高のエンドツーエンドモデルは、それぞれ34.8%、19.1%、および18.1%のワードエラー率(WER)を達成する。
論文 参考訳(メタデータ) (2020-06-15T10:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。