Fugu-MT 論文翻訳(概要): A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model

論文の概要: A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model

arxiv url: http://arxiv.org/abs/2305.11244v2
Date: Tue, 3 Oct 2023 19:45:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 18:43:43.067172
Title: A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model
Title（参考訳）: 事前学習汎用音声モデルを用いたアラビア方言識別のためのパラメータ効率よい学習手法
Authors: Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner
Abstract要約: 我々は、アラビア方言識別(ADI)のためのGSMを条件にトークンレベルのラベルマッピングを開発する。我々は,バニラ微調整により,ADI-17データセット上で最先端の精度を実現する。本研究は、小さなデータセットを用いてアラビア方言を識別する方法を示し、オープンソースコードと事前訓練されたモデルで制限する。
参考スコア（独自算出の注目度）: 9.999900422312098
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this work, we explore Parameter-Efficient-Learning (PEL) techniques to repurpose a General-Purpose-Speech (GSM) model for Arabic dialect identification (ADI). Specifically, we investigate different setups to incorporate trainable features into a multi-layer encoder-decoder GSM formulation under frozen pre-trained settings. Our architecture includes residual adapter and model reprogramming (input-prompting). We design a token-level label mapping to condition the GSM for Arabic Dialect Identification (ADI). This is challenging due to the high variation in vocabulary and pronunciation among the numerous regional dialects. We achieve new state-of-the-art accuracy on the ADI-17 dataset by vanilla fine-tuning. We further reduce the training budgets with the PEL method, which performs within 1.86% accuracy to fine-tuning using only 2.5% of (extra) network trainable parameters. Our study demonstrates how to identify Arabic dialects using a small dataset and limited computation with open source code and pre-trained models.
Abstract（参考訳）: 本研究では、アラビア方言識別(ADI)のための一般目的音声(GSM)モデルを応用するためのパラメータ効率学習(PEL)手法について検討する。具体的には,多層エンコーダ・デコーダgsm定式化にトレーニング可能な機能を組み込むための,既定の凍結条件下での異なる設定について検討する。私たちのアーキテクチャには、残余のアダプタとモデル再プログラミング(インプットプロンプティング)が含まれています。アラビア語方言識別のためのgsmを条件としてトークンレベルラベルマッピングを設計する。これは、多くの方言の中で語彙や発音のばらつきが高いためである。我々は,バニラ微調整により,ADI-17データセットの最先端性を実現する。さらに,ネットワークトレーニング可能なパラメータの2.5%しか使用せず,1.86%の精度で微調整を行うPEL法のトレーニング予算を削減した。本研究は,オープンソースコードと事前学習モデルを用いて,小さなデータセットと限られた計算量を用いてアラビア方言を識別する方法を示す。

関連論文リスト

Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。 Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。 1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-12-23T13:08:48Z)
TouchASP: Elastic Automatic Speech Perception that Everyone Can Touch [15.001750645731162]
大規模自動音声認識(ASR)モデルは、トレーニングプロセス中に大量のパラメータ、大量のデータ、重要な計算資源を必要とする。本稿では,eMoEモデルの弾性混合モデルを提案する。このモデルを一度だけ訓練し,デプロイ要求に応じて弾性的に拡張することができる。これら2つの手法を用いて,SpeechIOテストセットのキャラクタエラー率(CER)を4.98%から2.45%に低減し,弾力的展開を実現する。
論文参考訳（メタデータ） (2024-12-20T07:28:04Z)
Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文参考訳（メタデータ） (2024-06-24T15:58:15Z)
TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer [3.9981390090442694]
本稿では,音素認識,表現学習,知識伝達に基づくテキスト独立型音声アライメントのための新しいアプローチを提案する。我々は、TIMITデータセットとSCRIBEデータセットの合成ネイティブデータを用いて、アメリカ英語とイギリス英語のモデルを評価する。提案手法は,統計的指標における最先端(シャルシウ)よりも優れ,言語学習や音声処理システムに応用されている。
論文参考訳（メタデータ） (2024-05-03T14:25:21Z)
Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。テストデータセットでF1スコア76.65 (11位)を達成した。
論文参考訳（メタデータ） (2023-11-30T17:37:56Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
Pretraining Approaches for Spoken Language Recognition: TalTech Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文参考訳（メタデータ） (2022-05-14T15:17:08Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Intent Classification Using Pre-Trained Embeddings For Low Resource Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文参考訳（メタデータ） (2021-10-18T13:06:59Z)
AraELECTRA: Pre-Training Text Discriminators for Arabic Language Understanding [0.0]
我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。 AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
論文参考訳（メタデータ） (2020-12-31T09:35:39Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。 AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文参考訳（メタデータ） (2020-10-15T18:34:13Z)
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文参考訳（メタデータ） (2020-02-19T12:01:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。