論文の概要: HARNESS: Lightweight Distilled Arabic Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2509.14689v1
- Date: Thu, 18 Sep 2025 07:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.10644
- Title: HARNESS: Lightweight Distilled Arabic Speech Foundation Models
- Title(参考訳): HARNESS:軽量蒸留アラビア音声基礎モデル
- Authors: Vrunda N. sukhadia, Shammur Absar Chowdhury,
- Abstract要約: アラビア語中心の自己教師型音声モデルファミリであるHArnESSを紹介する。
我々は、大きなバイリンガル・ハーネス・SSLモデル(HL)を訓練し、知識を圧縮された学生モデル(HS, HST)に蒸留する。
我々は低ランク近似を用いて、教師の個別の監督を浅い薄いモデルに圧縮する。
- 参考スコア(独自算出の注目度): 15.43303906288125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large pre-trained speech models excel in downstream tasks but their deployment is impractical for resource-limited environments. In this paper, we introduce HArnESS, the first Arabic-centric self-supervised speech model family, designed to capture Arabic speech nuances. Using iterative self-distillation, we train large bilingual HArnESS (HL) SSL models and then distill knowledge into compressed student models (HS, HST), preserving Arabic-specific representations. We use low-rank approximation to further compact the teacher's discrete supervision into shallow, thin models. We evaluate HArnESS on Arabic ASR, Speaker Emotion Recognition (SER), and Dialect Identification (DID), demonstrating effectiveness against HuBERT and XLS-R. With minimal fine-tuning, HArnESS achieves SOTA or comparable performance, making it a lightweight yet powerful alternative for real-world use. We release our distilled models and findings to support responsible research and deployment in low-resource settings.
- Abstract(参考訳): 大規模な事前訓練された音声モデルは下流タスクでは優れているが、その展開はリソース制限された環境では現実的ではない。
本稿では,アラビア語音声のニュアンスを捉えるために設計された,最初のアラビア語中心の自己教師型音声モデルファミリーであるHarnESSを紹介する。
反復的な自己蒸留を用いて、大きなバイリンガル・ハーネス(HL)SSLモデルを訓練し、知識を圧縮された学生モデル(HS, HST)に蒸留し、アラビア固有の表現を保存する。
我々は低ランク近似を用いて、教師の個別の監督を浅い薄いモデルに圧縮する。
我々は、アラビア語のASR、話者感情認識(SER)、方言識別(DID)におけるハーネスの評価を行い、HuBERTとXLS-Rの有効性を実証した。
最小限の微調整で、HArnESSはSOTAまたは同等のパフォーマンスを達成する。
低リソース環境における責任ある研究と展開を支援するため、蒸留したモデルと結果をリリースする。
関連論文リスト
- Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning [0.0]
弱教師付き学習を用いて、コンフォーマーアーキテクチャを用いてアラビアASRモデルを訓練する。
我々のモデルは、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする弱注釈音声データを15,000時間スクラッチから訓練する。
論文 参考訳(メタデータ) (2025-04-16T17:05:14Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Seamless Language Expansion: Enhancing Multilingual Mastery in Self-Supervised Models [69.59613095232598]
既存のSSLモデルにLoRAを統合して新しい言語を拡張する適応手法を提案する。
また、既存の言語における能力を維持するために、データの組み合わせと再クラスタ化を含む保存戦略も開発している。
論文 参考訳(メタデータ) (2024-06-20T08:13:30Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for
Classifying Arabic Speech Acts on Twitter [0.32885740436059047]
本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。
本研究では,BERTに基づく重み付きアンサンブル学習手法を提案する。
その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。
論文 参考訳(メタデータ) (2024-01-30T19:01:24Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model [16.31307448314024]
蒸留言語間音声表現モデルであるDistilXLSRを提案する。
既存の音声の音素をランダムにシャッフルすることにより、言語情報を減らし、英語データのみを用いて言語間モデルを蒸留する。
本手法は,様々な言語/教師モデルに対して一般化可能であることが証明され,英語事前学習モデルの言語間性能を向上させる可能性がある。
論文 参考訳(メタデータ) (2023-06-02T07:03:06Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。