論文の概要: SPARTA: Speaker Profiling for ARabic TAlk
- arxiv url: http://arxiv.org/abs/2012.07073v1
- Date: Sun, 13 Dec 2020 14:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:46:42.285404
- Title: SPARTA: Speaker Profiling for ARabic TAlk
- Title(参考訳): SPARTA: アラビックタルクのための話者プロファイリング
- Authors: Wael Farhan, Muhy Eddin Za'ter, Qusai Abu Obaidah, Hisham al Bataineh,
Zyad Sober, Hussein T. Al-Natsheh
- Abstract要約: 本論文では,アラビア語音声の3つの話者特性(性別,感情,方言)を自動推定する手法を提案する。
データセットは6つの公開データセットから組み立てられた。
本論文で使用するデータおよび事前学習済みモデルはすべて利用可能であり、一般に入手することができる。
- 参考スコア(独自算出の注目度): 0.039146761527401416
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a novel approach to an automatic estimation of three
speaker traits from Arabic speech: gender, emotion, and dialect. After showing
promising results on different text classification tasks, the multi-task
learning (MTL) approach is used in this paper for Arabic speech classification
tasks. The dataset was assembled from six publicly available datasets. First,
The datasets were edited and thoroughly divided into train, development, and
test sets (open to the public), and a benchmark was set for each task and
dataset throughout the paper. Then, three different networks were explored:
Long Short Term Memory (LSTM), Convolutional Neural Network (CNN), and
Fully-Connected Neural Network (FCNN) on five different types of features: two
raw features (MFCC and MEL) and three pre-trained vectors (i-vectors,
d-vectors, and x-vectors). LSTM and CNN networks were implemented using raw
features: MFCC and MEL, where FCNN was explored on the pre-trained vectors
while varying the hyper-parameters of these networks to obtain the best results
for each dataset and task. MTL was evaluated against the single task learning
(STL) approach for the three tasks and six datasets, in which the MTL and
pre-trained vectors almost constantly outperformed STL. All the data and
pre-trained models used in this paper are available and can be acquired by the
public.
- Abstract(参考訳): 本稿では,アラビア語音声の3つの話者特性(性別,感情,方言)を自動推定する手法を提案する。
異なるテキスト分類タスクにおいて有望な結果を示した後、アラビア語音声分類タスクにおいて、マルチタスク学習(MTL)アプローチを用いる。
データセットは6つの公開データセットから組み立てられた。
まず、データセットを編集し、徹底的に列車、開発、テストセット(一般公開)に分割し、各タスクとデータセットのベンチマークを紙全体に設定した。
次に、Long Short Term Memory(LSTM)、Convolutional Neural Network(CNN)、Fully-Connected Neural Network(FCNN)の5つの異なるタイプの特徴として、2つの生特徴(MFCCとMEL)と3つの事前学習ベクタ(i-vector、d-vector、x-vectors)が探索された。
MFCCとMELでは、FCNNはトレーニング済みベクトル上で探索され、これらのネットワークのハイパーパラメータは変化し、各データセットとタスクに最適な結果が得られる。
MTLは3つのタスクと6つのデータセットに対して1つのタスク学習(STL)アプローチで評価された。
本論文で使用するデータおよび事前学習済みモデルはすべて利用可能であり、一般に入手することができる。
関連論文リスト
- Multi-Task Learning as enabler for General-Purpose AI-native RAN [1.4295558450631414]
本研究では、汎用AIネイティブ無線アクセスネットワーク(RAN)におけるマルチタスク学習(MTL)アプローチの有効性について検討する。
本研究は, (i) セカンダリキャリア予測, (ii) ユーザ位置予測, (iii) 屋内リンク分類, (iv) 視線リンク分類の4つのタスクに焦点を当てた。
モデルアーキテクチャ,損失と勾配のバランス戦略,分散学習トポロジ,データ空間,タスクグループ化など,MLLの多面的設計面を考慮した現実的なシミュレーションによる性能評価を行った。
論文 参考訳(メタデータ) (2024-04-05T21:12:25Z) - Multi-Task Learning for Front-End Text Processing in TTS [15.62497569424995]
テキストから音声のフロントエンドで一般的に解決される3つのタスクを共同で実行するためのマルチタスク学習(MTL)モデルを提案する。
我々のフレームワークは、共有表現を学習するトランクを持つ木のような構造を利用し、その後にタスク固有ヘッドを分離する。
論文 参考訳(メタデータ) (2024-01-12T02:13:21Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - A Comparison of SVM against Pre-trained Language Models (PLMs) for Text
Classification Tasks [1.2934180951771599]
ドメイン固有のコーパスでは、特定のタスクのために事前訓練されたモデルを微調整することで、パフォーマンスが向上することを示した。
3つのパブリックドメインフリーデータセットとドメイン固有の単語を含む実世界のデータセットにおける4つの異なるPLMの性能を比較した。
論文 参考訳(メタデータ) (2022-11-04T16:28:40Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - When to Use Multi-Task Learning vs Intermediate Fine-Tuning for
Pre-Trained Encoder Transfer Learning [15.39115079099451]
近年,自然言語処理における伝達学習(TL)への関心が高まっている。
微調整中に複数の教師付きデータセットを使用するための3つの主要な戦略が登場した。
GLUEデータセットの包括的解析において,3つのTL手法を比較した。
論文 参考訳(メタデータ) (2022-05-17T06:48:45Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - One Semantic Parser to Parse Them All: Sequence to Sequence Multi-Task
Learning on Semantic Parsing Datasets [6.917760579112858]
本稿では,Multi-Task Learning (MTL) アーキテクチャを用いて,セマンティック解析データセットの単一モデルを学習する。
データセット間でネットワーク全体を共有しているMTLアーキテクチャは、シングルタスクベースラインよりも、競合的あるいはより良い解析精度をもたらすことが分かっています。
論文 参考訳(メタデータ) (2021-06-08T16:03:42Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。