Fugu-MT 論文翻訳(概要): InQSS: a speech intelligibility assessment model using a multi-task learning network

論文の概要: InQSS: a speech intelligibility assessment model using a multi-task learning network

arxiv url: http://arxiv.org/abs/2111.02585v1
Date: Thu, 4 Nov 2021 02:01:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-05 16:15:20.818089
Title: InQSS: a speech intelligibility assessment model using a multi-task learning network
Title（参考訳）: inqss:マルチタスク学習ネットワークを用いた音声理解性評価モデル
Authors: Yu-Wen Chen, Yu Tsao
Abstract要約: 本研究では,スペクトルおよび散乱係数を入力特徴として用いた音声インテリジェンス評価モデルであるInQSSを提案する。得られたモデルは、知性スコアだけでなく、音声の品質スコアも予測できる。
参考スコア（独自算出の注目度）: 21.037410575414995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech intelligibility assessment models are essential tools for researchers to evaluate and improve speech processing models. In this study, we propose InQSS, a speech intelligibility assessment model that uses both spectrogram and scattering coefficients as input features. In addition, InQSS uses a multi-task learning network in which quality scores can guide the training of the speech intelligibility assessment. The resulting model can predict not only the intelligibility scores but also the quality scores of a speech. The experimental results confirm that the scattering coefficients and quality scores are informative for intelligibility. Moreover, we released TMHINT-QI, which is a Chinese speech dataset that records the quality and intelligibility scores of clean, noisy, and enhanced speech.
Abstract（参考訳）: 音声の可聴性評価モデルは、研究者が音声処理モデルを評価し改善するために必要なツールである。本研究では,スペクトルおよび散乱係数を入力特徴として用いた音声インテリジェンス評価モデルであるInQSSを提案する。さらに、InQSSはマルチタスク学習ネットワークを使用し、品質スコアは音声のインテリジェンス評価のトレーニングをガイドすることができる。結果として得られたモデルは、理解度スコアだけでなく、音声の品質スコアも予測できる。実験結果から, 散乱係数と品質スコアは知性に有益であることが確認された。さらに,清潔でうるさく,強化された音声の品質と知性スコアを記録する中国語音声データセットtmhint-qiをリリースした。

関連論文リスト

QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions [45.34333059156364]
包括的低レベル音声品質評価データセットであるQuariSpeechを紹介する。また,聴覚大言語モデルの低レベル音声理解能力を評価するために,QuariSpeech Benchmarkを提案する。
論文参考訳（メタデータ） (2025-03-26T07:32:20Z)
Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。 Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-12T09:39:33Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。 VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文参考訳（メタデータ） (2024-02-26T06:01:38Z)
On the Transferability of Large-Scale Self-Supervision to Few-Shot Audio Classification [7.83105437734593]
自己教師付き学習は、ラベルのないデータから堅牢な特徴表現を学ぶ能力に優れています。本研究は,大規模自己教師型モデルの性能を数ショット音声分類で評価する。
論文参考訳（メタデータ） (2024-02-02T10:00:51Z)
Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2023-12-11T06:50:27Z)
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。 BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文参考訳（メタデータ） (2023-04-28T08:06:05Z)
Visualising and Explaining Deep Learning Models for Speech Quality Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文参考訳（メタデータ） (2021-12-12T12:50:03Z)
HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文参考訳（メタデータ） (2021-11-10T14:10:13Z)
Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文参考訳（メタデータ） (2021-11-03T17:30:43Z)
Task-Specific Normalization for Continual Learning of Blind Image Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文参考訳（メタデータ） (2021-07-28T15:21:01Z)
Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。 Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文参考訳（メタデータ） (2021-04-23T16:05:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。