論文の概要: MTI-Net: A Multi-Target Speech Intelligibility Prediction Model
- arxiv url: http://arxiv.org/abs/2204.03310v1
- Date: Thu, 7 Apr 2022 09:17:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 15:54:56.478178
- Title: MTI-Net: A Multi-Target Speech Intelligibility Prediction Model
- Title(参考訳): MTI-Net:マルチターゲット音声明瞭度予測モデル
- Authors: Ryandhimas E. Zezario, Szu-wei Fu, Fei Chen, Chiou-Shann Fuh, Hsin-Min
Wang, Yu Tsao
- Abstract要約: 本研究では,MTI-Netと呼ばれるマルチタスク音声のインテリジェンス予測モデルを提案し,人間と機械のインテリジェンス対策を同時に予測する。
具体的には、MTI-Netは、主観的な聞き取りテスト結果と単語誤り率(WER)のスコアを予測するように設計されている。
- 参考スコア(独自算出の注目度): 25.124218779681875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning (DL)-based non-intrusive speech assessment models
have attracted great attention. Many studies report that these DL-based models
yield satisfactory assessment performance and good flexibility, but their
performance in unseen environments remains a challenge. Furthermore, compared
to quality scores, fewer studies elaborate deep learning models to estimate
intelligibility scores. This study proposes a multi-task speech intelligibility
prediction model, called MTI-Net, for simultaneously predicting human and
machine intelligibility measures. Specifically, given a speech utterance,
MTI-Net is designed to predict subjective listening test results and word error
rate (WER) scores. We also investigate several methods that can improve the
prediction performance of MTI-Net. First, we compare different features
(including low-level features and embeddings from self-supervised learning
(SSL) models) and prediction targets of MTI-Net. Second, we explore the effect
of transfer learning and multi-tasking learning on training MTI-Net. Finally,
we examine the potential advantages of fine-tuning SSL embeddings. Experimental
results demonstrate the effectiveness of using cross-domain features,
multi-task learning, and fine-tuning SSL embeddings. Furthermore, it is
confirmed that the intelligibility and WER scores predicted by MTI-Net are
highly correlated with the ground-truth scores.
- Abstract(参考訳): 近年,深層学習(DL)に基づく非侵入的音声評価モデルが注目されている。
多くの研究は、これらのDLベースのモデルは、良好な評価性能と優れた柔軟性をもたらすと報告している。
さらに、品質スコアと比較して、インテリジェンススコアを推定する深層学習モデルの研究は少ない。
本研究は,人間と機械の知性尺度を同時に予測するマルチタスク音声知性予測モデルであるmti-netを提案する。
具体的には,MTI-Netは主観的聴力テスト結果と単語誤り率(WER)のスコアを予測するように設計されている。
また,MTI-Netの予測性能を向上させる手法についても検討した。
まず、自己教師付き学習(SSL)モデルからの低レベル機能や埋め込み、MTI-Netの予測ターゲットなど、さまざまな特徴を比較する。
第2に,移動学習とマルチタスク学習がMTI-Netの学習に与える影響を検討する。
最後に、細調整のSSL埋め込みの潜在的な利点について検討する。
実験の結果,クロスドメイン機能,マルチタスク学習,ssl組込みの微調整の有効性が実証された。
さらに,MTI-Netにより予測されるインテリジェンス性とWERスコアが,地中信頼度と高い相関があることが確認された。
関連論文リスト
- On Learnable Parameters of Optimal and Suboptimal Deep Learning Models [2.889799048595314]
ディープラーニングモデルの構造的および運用的側面について検討する。
本研究は,学習可能なパラメータ(重み)統計,分布,ノード間相互作用,可視化のニュアンスに着目した。
論文 参考訳(メタデータ) (2024-08-21T15:50:37Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。
テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。
2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文 参考訳(メタデータ) (2024-04-21T08:20:02Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - Cross-Task Consistency Learning Framework for Multi-Task Learning [9.991706230252708]
2タスクMTL問題に対する新しい学習フレームワークを提案する。
サイクル一貫性損失とコントラスト学習に着想を得た2つの新たな損失項を定義する。
理論的には、どちらの損失もモデルをより効率的に学習する助けとなり、直進予測と整合する点において、クロスタスクの整合性損失がより良いことを証明している。
論文 参考訳(メタデータ) (2021-11-28T11:55:19Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。