論文の概要: A Pyramid Recurrent Network for Predicting Crowdsourced Speech-Quality
Ratings of Real-World Signals
- arxiv url: http://arxiv.org/abs/2007.15797v1
- Date: Fri, 31 Jul 2020 01:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:20:48.692811
- Title: A Pyramid Recurrent Network for Predicting Crowdsourced Speech-Quality
Ratings of Real-World Signals
- Title(参考訳): 実世界信号のクラウドソーシング音声品質評価予測のためのピラミッドリカレントネットワーク
- Authors: Xuan Dong and Donald S. Williamson
- Abstract要約: 我々は,人間の聴取者によって評価された実世界の音声信号の知覚的品質を収集し,予測する。
我々は,注目機構を備えたピラミッド双方向長期記憶(pBLSTM)ネットワークを用いて,人間の品質評価を予測する新しい手法を開発した。
- 参考スコア(独自算出の注目度): 22.49276680317304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real-world capabilities of objective speech quality measures are limited
since current measures (1) are developed from simulated data that does not
adequately model real environments; or they (2) predict objective scores that
are not always strongly correlated with subjective ratings. Additionally, a
large dataset of real-world signals with listener quality ratings does not
currently exist, which would help facilitate real-world assessment. In this
paper, we collect and predict the perceptual quality of real-world speech
signals that are evaluated by human listeners. We first collect a large quality
rating dataset by conducting crowdsourced listening studies on two real-world
corpora. We further develop a novel approach that predicts human quality
ratings using a pyramid bidirectional long short term memory (pBLSTM) network
with an attention mechanism. The results show that the proposed model achieves
statistically lower estimation errors than prior assessment approaches, where
the predicted scores strongly correlate with human judgments.
- Abstract(参考訳): 目的語質尺度の現実的能力は,(1)実環境を適切にモデル化しない模擬データから,(2)主観的評価と強く相関しない客観的スコアを推定することにより,制限される。
さらに、リスナー品質評価を伴う現実世界の信号の大規模なデータセットは、現在存在しないため、現実世界の評価が容易になる。
本稿では,人間の聞き手によって評価される実世界の音声信号の知覚的品質を収集し,予測する。
まず,2つの実世界のコーパス上でクラウドソースによる聞き取り調査を行い,質の高い評価データセットを収集した。
さらに、注目機構を備えたピラミッド双方向長期記憶(pBLSTM)ネットワークを用いて、人間の品質評価を予測する新しい手法を開発した。
その結果,予測スコアが人的判断と強く相関する従来の評価手法よりも統計的に低い推定誤差が得られた。
関連論文リスト
- WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - On the Evaluation of Generative Adversarial Networks By Discriminative
Models [0.0]
GAN(Generative Adversarial Networks)は、複雑な多次元データを正確にモデル化し、現実的なサンプルを生成する。
この問題に対処する研究努力の大部分は、質的な視覚的評価によって検証された。
本研究では,シームズニューラルネットワークを用いてドメインに依存しない評価指標を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:50:39Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。