論文の概要: HARNESS: Lightweight Distilled Arabic Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2604.14186v1
- Date: Tue, 31 Mar 2026 16:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.707607
- Title: HARNESS: Lightweight Distilled Arabic Speech Foundation Models
- Title(参考訳): HARNESS:軽量蒸留アラビア音声基礎モデル
- Authors: Vrunda N. Sukhadia, Shammur Absar Chowdhury,
- Abstract要約: アラビア語中心の自己教師型音声モデルであるHArnESSを,反復的な自己蒸留で訓練した。
我々のアプローチは、大きなバイリンガルのアラビア語教師から始まり、その知識を圧縮された学生モデルに徐々に蒸留する。
HuBERTやXLS-Rと比較して、HArnESSはアラビア下流タスクのパフォーマンスを継続的に改善している。
- 参考スコア(独自算出の注目度): 15.43303906288125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large self-supervised speech (SSL) models achieve strong downstream performance, but their size limits deployment in resource-constrained settings. We present HArnESS, an Arabic-centric self-supervised speech model family trained from scratch with iterative self-distillation, together with lightweight student variants that offer strong accuracy-efficiency trade-offs on Automatic Speech Recognition (ASR), Dialect Identification (DID), and Speech Emotion Recognition (SER). Our approach begins with a large bilingual Arabic-English teacher and progressively distills its knowledge into compressed student models while preserving Arabic-relevant acoustic and paralinguistic representations. We further study PCA-based compression of the teacher supervision signal to better match the capacity of shallow and thin students. Compared with HuBERT and XLS-R, HArnESS consistently improves performance on Arabic downstream tasks, while the compressed models remain competitive under substantial structural reduction. These results position HArnESS as a practical and accessible Arabic-centric SSL foundation for real-world speech applications.
- Abstract(参考訳): 大規模な自己教師付き音声(SSL)モデルは、強力なダウンストリーム性能を実現するが、そのサイズはリソース制約された設定でのデプロイメントを制限する。
本稿では、アラビア語中心の自己教師型音声モデルであるHArnESSと、自動音声認識(ASR)、方言識別(DID)、音声感情認識(SER)の高精度なトレードオフを提供する軽量な学生版について紹介する。
我々のアプローチは、大きなバイリンガルのアラビア語教師から始まり、アラビア語に関連する音響的・パラ言語的な表現を保ちながら、その知識を圧縮された学生モデルに徐々に蒸留する。
さらに, 教師の指導信号のPCAによる圧縮について検討し, 浅い生徒と薄い生徒の能力によく適合することを示した。
HuBERTやXLS-Rと比較すると、HarnESSはアラビア語の下流タスクのパフォーマンスを継続的に改善し、圧縮されたモデルは実質的な構造的縮小の下で競争力を維持する。
これらの結果は、HArnESSを現実の音声アプリケーションのための実践的でアクセスしやすいアラビア語中心のSSL基盤として位置づけている。
関連論文リスト
- Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis [20.50741854108831]
本稿では,特殊・統一された音声合成モデルであるHabibiを紹介する。
当社のアプローチは、先進的な商用サービスの世代品質を上回ります。
我々は、多言語アラビア語音声合成のための最初の体系的ベンチマークを作成する。
論文 参考訳(メタデータ) (2026-01-20T10:02:11Z) - HARNESS: Lightweight Distilled Arabic Speech Foundation Models [15.43303906288125]
アラビア語中心の自己教師型音声モデルファミリであるHArnESSを紹介する。
我々は、大きなバイリンガル・ハーネス・SSLモデル(HL)を訓練し、知識を圧縮された学生モデル(HS, HST)に蒸留する。
我々は低ランク近似を用いて、教師の個別の監督を浅い薄いモデルに圧縮する。
論文 参考訳(メタデータ) (2025-09-18T07:30:37Z) - Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning [0.0]
本稿では,弱教師付き学習と教師付き微調整を組み合わせたスケーラブルな学習パイプラインを提案する。
提案手法は,多言語アラビア語のASR課題において第1位にランクインし,最先端の成果を達成している。
論文 参考訳(メタデータ) (2025-08-12T13:02:22Z) - Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning [0.0]
弱教師付き学習を用いて、コンフォーマーアーキテクチャを用いてアラビアASRモデルを訓練する。
我々のモデルは、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする弱注釈音声データを15,000時間スクラッチから訓練する。
論文 参考訳(メタデータ) (2025-04-16T17:05:14Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT [45.729377551100676]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。