論文の概要: A Pyramid Recurrent Network for Predicting Crowdsourced Speech-Quality
Ratings of Real-World Signals
- arxiv url: http://arxiv.org/abs/2007.15797v1
- Date: Fri, 31 Jul 2020 01:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-04 06:20:48.692811
- Title: A Pyramid Recurrent Network for Predicting Crowdsourced Speech-Quality
Ratings of Real-World Signals
- Title(参考訳): 実世界信号のクラウドソーシング音声品質評価予測のためのピラミッドリカレントネットワーク
- Authors: Xuan Dong and Donald S. Williamson
- Abstract要約: 我々は,人間の聴取者によって評価された実世界の音声信号の知覚的品質を収集し,予測する。
我々は,注目機構を備えたピラミッド双方向長期記憶(pBLSTM)ネットワークを用いて,人間の品質評価を予測する新しい手法を開発した。
- 参考スコア(独自算出の注目度): 22.49276680317304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real-world capabilities of objective speech quality measures are limited
since current measures (1) are developed from simulated data that does not
adequately model real environments; or they (2) predict objective scores that
are not always strongly correlated with subjective ratings. Additionally, a
large dataset of real-world signals with listener quality ratings does not
currently exist, which would help facilitate real-world assessment. In this
paper, we collect and predict the perceptual quality of real-world speech
signals that are evaluated by human listeners. We first collect a large quality
rating dataset by conducting crowdsourced listening studies on two real-world
corpora. We further develop a novel approach that predicts human quality
ratings using a pyramid bidirectional long short term memory (pBLSTM) network
with an attention mechanism. The results show that the proposed model achieves
statistically lower estimation errors than prior assessment approaches, where
the predicted scores strongly correlate with human judgments.
- Abstract(参考訳): 目的語質尺度の現実的能力は,(1)実環境を適切にモデル化しない模擬データから,(2)主観的評価と強く相関しない客観的スコアを推定することにより,制限される。
さらに、リスナー品質評価を伴う現実世界の信号の大規模なデータセットは、現在存在しないため、現実世界の評価が容易になる。
本稿では,人間の聞き手によって評価される実世界の音声信号の知覚的品質を収集し,予測する。
まず,2つの実世界のコーパス上でクラウドソースによる聞き取り調査を行い,質の高い評価データセットを収集した。
さらに、注目機構を備えたピラミッド双方向長期記憶(pBLSTM)ネットワークを用いて、人間の品質評価を予測する新しい手法を開発した。
その結果,予測スコアが人的判断と強く相関する従来の評価手法よりも統計的に低い推定誤差が得られた。
関連論文リスト
- Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach [0.0]
本稿では,人間の判断による結論の信頼性と妥当性を向上させるため,心理測定レーダモデルをAIパイプラインに統合する。
本研究では, レーダ重大度に対する調整が, 要約品質の補正された推定値をいかに生み出すかを示す。
この視点は、AI開発と評価のためのより堅牢で解釈可能な、構成整合したプラクティスへの道のりを強調している。
論文 参考訳(メタデータ) (2026-02-26T03:35:36Z) - NAIPv2: Debiased Pairwise Learning for Efficient Paper Quality Estimation [58.30936615525824]
本稿では,紙の品質評価のための非バイアスで効率的なフレームワークであるNAIPv2を提案する。
NAIPv2は、レビューアレーティングの不整合を低減するために、ドメイン年グループ内でペアワイズ学習を採用している。
これはペアワイズ比較に基づいてトレーニングされるが、デプロイ時に効率的なポイントワイズ予測を可能にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems [18.831062572775668]
既存の手法では、平均世論スコア(MOS)予測を回帰問題として扱うが、標準的な回帰損失は知覚的判断の相対性を見落としている。
QAMROは、異なる視点から回帰目標をシームレスに統合する、新しい品質に配慮した適応型マージンランク最適化フレームワークである。
我々のフレームワークはCLAPやAudiobox-Aestheticsのような事前学習されたオーディオテキストモデルを活用し、公式のAudioMOS Challenge 2025データセットにのみトレーニングされている。
論文 参考訳(メタデータ) (2025-08-12T14:14:04Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - On the Evaluation of Generative Adversarial Networks By Discriminative
Models [0.0]
GAN(Generative Adversarial Networks)は、複雑な多次元データを正確にモデル化し、現実的なサンプルを生成する。
この問題に対処する研究努力の大部分は、質的な視覚的評価によって検証された。
本研究では,シームズニューラルネットワークを用いてドメインに依存しない評価指標を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:50:39Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。