論文の概要: CBF-AFA: Chunk-Based Multi-SSL Fusion for Automatic Fluency Assessment
- arxiv url: http://arxiv.org/abs/2506.20243v1
- Date: Wed, 25 Jun 2025 08:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.661762
- Title: CBF-AFA: Chunk-Based Multi-SSL Fusion for Automatic Fluency Assessment
- Title(参考訳): CBF-AFA: 周波数自動評価のためのチャンクベースマルチSSLフュージョン
- Authors: Papa Séga Wade, Mihai Andries, Ioannis Kanellos, Thierry Moudenc,
- Abstract要約: AFA(Automatic Fluency Assessment)は、特に非ネイティブ話者の音声リズム、ポーズ、拡散を捉える上で、依然として困難である。
本稿では, 音声, 韻律, 騒々しい音声モデリングにおいて, 相補的な強みのために選択された自己教師付き学習(SSL)モデルを統合するチャンクベースアプローチを提案する。
提案手法では,AvalinguoではF1スコアが2.8,Pearson相関が6.2,F1スコアが4.2,Pearsonポイントが4.0であった。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic fluency assessment (AFA) remains challenging, particularly in capturing speech rhythm, pauses, and disfluencies in non-native speakers. We introduce a chunk-based approach integrating self-supervised learning (SSL) models (Wav2Vec2, HuBERT, and WavLM) selected for their complementary strengths in phonetic, prosodic, and noisy speech modeling, with a hierarchical CNN-BiLSTM framework. Speech is segmented into breath-group chunks using Silero voice activity detection (Silero-VAD), enabling fine-grained temporal analysis while mitigating over-segmentation artifacts. SSL embeddings are fused via a learnable weighted mechanism, balancing acoustic and linguistic features, and enriched with chunk-level fluency markers (e.g., speech rate, pause durations, n-gram repetitions). The CNN-BiLSTM captures local and long-term dependencies across chunks. Evaluated on Avalinguo and Speechocean762, our approach improves F1-score by 2.8 and Pearson correlation by 6.2 points over single SSL baselines on Speechocean762, with gains of 4.2 F1-score and 4.0 Pearson points on Avalinguo, surpassing Pyannote.audio-based segmentation baselines. These findings highlight chunk-based multi-SSL fusion for robust fluency evaluation, though future work should explore generalization to dialects with irregular prosody.
- Abstract(参考訳): AFA(Automatic Fluency Assessment)は、特に非ネイティブ話者の音声リズム、ポーズ、拡散を捉える上で、依然として困難である。
CNN-BiLSTMフレームワークを用いて,音声,韻律,雑音の相補的強みを考慮した自己教師付き学習(SSL)モデル(Wav2Vec2, HuBERT, WavLM)のチャンクベースアプローチを提案する。
音声はSilero-VAD (Silero-VAD) を用いて呼吸群チャンクに分割し, 微細な時間解析が可能であり, 過分節を緩和する。
SSLの埋め込みは学習可能な重み付け機構を通じて融合され、音響的特徴と言語的特徴のバランスをとり、チャンクレベルの流速マーカー(例えば、音声率、停止期間、n-gramの繰り返し)で富む。
CNN-BiLSTMはチャンク間の局所的および長期的依存関係をキャプチャする。
Avalinguo と Speechocean762 で評価した結果,Avalinguo では F1-score が 2.8 に,Pearson では Pearson が 6.2 に向上し,Avalinguo では 4.2 F1-score が 4.0 に,Pyannote.audio では 4.0 に上った。
これらの結果から,チャンクベースのマルチSSL融合による堅牢な流速評価が注目されるが,今後は不規則な韻律を持つ方言への一般化が検討される。
関連論文リスト
- Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。