論文の概要: Yet Another Model for Arabic Dialect Identification
- arxiv url: http://arxiv.org/abs/2310.13812v1
- Date: Fri, 20 Oct 2023 20:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 05:06:46.235731
- Title: Yet Another Model for Arabic Dialect Identification
- Title(参考訳): アラビア方言識別のための別のモデル
- Authors: Ajinkya Kulkarni, Hanan Aldarmaki
- Abstract要約: 2つのベンチマークデータセットにおいて、従来公表された結果より一貫して優れていたアラビア語のアラビア方言識別(ADI)モデルについて述べる。
ResNet と ECAPA-TDNN と MFCC と UniSpeech-SAT Large の2種類の音響特性について検討する。
ECAPA-TDNNネットワークはResNetより優れており、UniSpeech-SATのモデルはMFCCのモデルよりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 3.3676601469862644
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we describe a spoken Arabic dialect identification (ADI) model
for Arabic that consistently outperforms previously published results on two
benchmark datasets: ADI-5 and ADI-17. We explore two architectural variations:
ResNet and ECAPA-TDNN, coupled with two types of acoustic features: MFCCs and
features exratected from the pre-trained self-supervised model UniSpeech-SAT
Large, as well as a fusion of all four variants. We find that individually,
ECAPA-TDNN network outperforms ResNet, and models with UniSpeech-SAT features
outperform models with MFCCs by a large margin. Furthermore, a fusion of all
four variants consistently outperforms individual models. Our best models
outperform previously reported results on both datasets, with accuracies of
84.7% and 96.9% on ADI-5 and ADI-17, respectively.
- Abstract(参考訳): 本稿では,ADI-5 と ADI-17 の2つのベンチマークデータセットにおいて,従来よりずっと優れていたアラビア方言識別(ADI)モデルについて述べる。
ResNet と ECAPA-TDNN の2種類の音響特性: MFCC とUniSpeech-SAT Large から抽出された特徴、および4つの変種を融合する。
ECAPA-TDNNネットワークはResNetより優れており、UniSpeech-SATのモデルはMFCCのモデルよりも大きなマージンで優れている。
さらに、4つの変種の融合は個々のモデルよりも一貫して優れている。
ADI-5とADI-17では,それぞれ84.7%,96.9%であった。
関連論文リスト
- To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation [16.655022975392992]
現在の多言語ASRモデルは計算集約的であり、適切な総合的な評価を欠いている。
我々は、大きな教師モデルからより効率的なより小さな学生の変種に知識を蒸留する。
最もよく蒸留されたモデル全体の性能(45.0$% WER)は、SoTAモデルの2倍の大きさである。
論文 参考訳(メタデータ) (2024-06-06T21:11:53Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - USM-SCD: Multilingual Speaker Change Detection Based on Large Pretrained
Foundation Models [17.87796508561949]
本稿では,話者のターンを同時に検出し,96言語でASRを実行する多言語話者変化検出モデル(USM-SCD)を提案する。
その結果,USM-SCDモデルでは,96言語のデータからなるテストセットに対して,平均話者変化検出F1スコアの75%以上を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T20:46:49Z) - Confidence-based Ensembles of End-to-End Speech Recognition Models [71.65982591023581]
5つの単言語モデルの信頼に基づくアンサンブルは、専用言語識別ブロックを介してモデル選択を行うシステムより優れていることを示す。
また、ベースモデルと適応モデルを組み合わせることで、オリジナルデータとターゲットデータの両方で強力な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-27T23:13:43Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Large-scale learning of generalised representations for speaker
recognition [52.978310296712834]
多様なシナリオで使用される話者認識モデルを開発した。
いくつかの既存のデータセットを組み合わせた新しいトレーニングデータ構成について検討する。
帰納バイアスの少ない MFA-Conformer が最良を一般化する。
論文 参考訳(メタデータ) (2022-10-20T03:08:18Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - XD at SemEval-2020 Task 12: Ensemble Approach to Offensive Language
Identification in Social Media Using Transformer Encoders [17.14709845342071]
本稿では,ソーシャルメディアにおける攻撃的言語識別のための最新のトランスフォーマーエンコーダと高性能アンサンブルモデルを用いた6つの文書分類モデルを提案する。
分析の結果,アンサンブルモデルでは開発セットの精度が大幅に向上するが,テストセットの精度はそれほど良くないことがわかった。
論文 参考訳(メタデータ) (2020-07-21T17:03:00Z) - ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech
Recognition [21.554020483837096]
本稿では,2つの新しいニューラルネットワークアーキテクチャを持つLibriSpeechコーパス上でのSOTA(State-of-the-art)性能について述べる。
ハイブリッドASRフレームワークでは、マルチストリームCNN音響モデルが複数の並列パイプラインにおける音声フレームの入力を処理する。
さらに,24層SRU言語モデルを用いてN-best再構成を行い,テストクリーンで1.75%,他で4.46%のWERを実現した。
論文 参考訳(メタデータ) (2020-05-21T05:18:34Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。