論文の概要: Whisper in Focus: Enhancing Stuttered Speech Classification with Encoder
Layer Optimization
- arxiv url: http://arxiv.org/abs/2311.05203v1
- Date: Thu, 9 Nov 2023 08:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:56:34.195930
- Title: Whisper in Focus: Enhancing Stuttered Speech Classification with Encoder
Layer Optimization
- Title(参考訳): whisper in focus: エンコーダ層最適化による頑丈な音声分類の強化
- Authors: Huma Ameer, Seemab Latif, Rabia Latif, Sana Mukhtar
- Abstract要約: 本研究は, 発声音声における不規則型の分類におけるWhisperの能力を明らかにするものである。
SEP28-kベンチマークデータセットの品質向上、分類のためのWhisperの探索、効率的なエンコーダ層凍結戦略の導入である。
- 参考スコア(独自算出の注目度): 0.16385815610837165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, advancements in the field of speech processing have led to
cutting-edge deep learning algorithms with immense potential for real-world
applications. The automated identification of stuttered speech is one of such
applications that the researchers are addressing by employing deep learning
techniques. Recently, researchers have utilized Wav2vec2.0, a speech
recognition model to classify disfluency types in stuttered speech. Although
Wav2vec2.0 has shown commendable results, its ability to generalize across all
disfluency types is limited. In addition, since its base model uses 12 encoder
layers, it is considered a resource-intensive model. Our study unravels the
capabilities of Whisper for the classification of disfluency types in stuttered
speech. We have made notable contributions in three pivotal areas: enhancing
the quality of SEP28-k benchmark dataset, exploration of Whisper for
classification, and introducing an efficient encoder layer freezing strategy.
The optimized Whisper model has achieved the average F1-score of 0.81, which
proffers its abilities. This study also unwinds the significance of deeper
encoder layers in the identification of disfluency types, as the results
demonstrate their greater contribution compared to initial layers. This
research represents substantial contributions, shifting the emphasis towards an
efficient solution, thereby thriving towards prospective innovation.
- Abstract(参考訳): 近年,音声処理の分野での進歩により,最先端のディープラーニングアルゴリズムが実現され,現実的な応用の可能性が高まっている。
発声音声の自動識別は、ディープラーニング技術を用いて研究者が取り組んでいる応用の1つである。
近年, 音声認識モデルであるWav2vec2.0を用いて, 発声における拡散型を分類している。
wav2vec2.0は賞賛に値する結果を示したが、すべての不流動型を一般化する能力は限られている。
さらに、ベースモデルは12のエンコーダ層を使っているため、リソース集約型モデルと見なされる。
本研究は, 発声音声における不流動型分類のためのささやきの能力を明らかにするものである。
SEP28-kベンチマークデータセットの品質向上、分類のためのWhisperの探索、効率的なエンコーダ層凍結戦略の導入である。
最適化されたウィスパーモデルは平均F1スコア0.81を達成した。
本研究は, 拡散型同定におけるディープエンコーダ層の重要性を, 初期層と比較して大きく寄与したことを示すものである。
この研究は実質的な貢献を示し、効率的なソリューションに重点を移し、それによって将来的なイノベーションへと発展します。
関連論文リスト
- An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation [97.3797716862478]
Word-level AutoCompletion (WLAC) は、コンピュータ支援翻訳における報奨だが挑戦的なタスクである。
既存の作業は、入力コンテキストの隠れベクターを対応するラベルにマッピングするニューラルネットワークに基づく分類モデルを通じて、このタスクに対処する。
そこで本研究では,WLACのエネルギーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:07:19Z) - Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment [0.14999444543328289]
本研究は, 発声音声における不一致の同定における最後のエンコーダ層の役割を明らかにするものである。
計算効率が良く、訓練のためのパラメータが83.7%少なくなり、提案されたアプローチは様々な方言や言語に適応できるようになった。
論文 参考訳(メタデータ) (2024-06-09T13:42:51Z) - SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection [31.464227593768324]
本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-05-16T12:42:06Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning [23.13972240042859]
本稿では,複数の異なる分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。
FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークで構成されている。
合成スタッターを用いたパブリックなLibriSpeechデータセットに基づく分散データセットを提案する。
論文 参考訳(メタデータ) (2020-09-23T21:51:29Z) - End-to-End Auditory Object Recognition via Inception Nucleus [7.22898229765707]
生波形入力を音響クラスラベルにマッピングする,新しいエンドツーエンドのディープニューラルネットワークを提案する。
私たちのネットワークには、ハエの畳み込みフィルタのサイズを最適化する「開始核」が含まれています。
論文 参考訳(メタデータ) (2020-05-25T16:08:41Z) - Decoding Imagined Speech using Wavelet Features and Deep Neural Networks [2.4063592468412267]
本稿では, 深層ニューラルネットワークを用いた予測音声の分類手法を提案する。
提案手法では、脳の特定の領域にのみEEGチャネルを用いて分類し、それぞれのチャネルから特徴ベクトルを導出する。
提案したアーキテクチャとデータ処理のアプローチにより,57.15%の平均分類精度が向上し,最先端の結果よりも約35%向上した。
論文 参考訳(メタデータ) (2020-03-19T00:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。