論文の概要: RedPen: Region- and Reason-Annotated Dataset of Unnatural Speech
- arxiv url: http://arxiv.org/abs/2210.14406v1
- Date: Wed, 26 Oct 2022 01:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:21:10.298895
- Title: RedPen: Region- and Reason-Annotated Dataset of Unnatural Speech
- Title(参考訳): RedPen:非自然な音声の領域と推論アノテーション付きデータセット
- Authors: Kyumin Park, Keon Lee, Daeyoung Kim, Dongyeop Kang
- Abstract要約: 本研究では,不自然な音声領域に人間のアノテーションを付加した新しい音声データセットRedPenとその対応理由について述べる。
RedPenは180の合成スピーチと、群衆労働者が注釈を付けた非自然の領域で構成されている。
我々のデータセットは、モデル駆動の非自然性予測よりも、不自然な音声領域をよりよく説明できることがわかった。
- 参考スコア(独自算出の注目度): 11.059527627722272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even with recent advances in speech synthesis models, the evaluation of such
models is based purely on human judgement as a single naturalness score, such
as the Mean Opinion Score (MOS). The score-based metric does not give any
further information about which parts of speech are unnatural or why human
judges believe they are unnatural. We present a novel speech dataset, RedPen,
with human annotations on unnatural speech regions and their corresponding
reasons. RedPen consists of 180 synthesized speeches with unnatural regions
annotated by crowd workers; These regions are then reasoned and categorized by
error types, such as voice trembling and background noise. We find that our
dataset shows a better explanation for unnatural speech regions than the
model-driven unnaturalness prediction. Our analysis also shows that each model
includes different types of error types. Summing up, our dataset successfully
shows the possibility that various error regions and types lie under the single
naturalness score. We believe that our dataset will shed light on the
evaluation and development of more interpretable speech models in the future.
Our dataset will be publicly available upon acceptance.
- Abstract(参考訳): 近年の音声合成モデルの発展にもかかわらず、そのようなモデルの評価は、MOS(Mean Opinion Score)のような自然度スコアとして純粋に人間の判断に基づいている。
スコアベースのメトリクスは、音声のどの部分が不自然であるか、なぜ人間の判断が不自然であると信じているのかについて、それ以上の情報は提供しない。
非自然な音声領域に人間のアノテーションを付加した新しい音声データセットRedPenとその対応について述べる。
redpenは180個の合成音声からなり、群集作業員がアノテートした不自然な領域は、音声の震えや背景雑音などのエラータイプによって推論され分類される。
我々のデータセットは、モデル駆動の非自然性予測よりも、不自然な音声領域をよりよく説明できる。
分析の結果,各モデルに異なるタイプのエラーがあることがわかった。
要約すると、我々のデータセットは、様々なエラー領域と型が単一の自然度スコアの下にある可能性を示す。
我々は,我々のデータセットが将来,より解釈可能な音声モデルの評価と開発に光を当てると考えている。
私たちのデータセットは受け入れ次第公開されます。
関連論文リスト
- Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Pre-trained Speech Processing Models Contain Human-Like Biases that
Propagate to Speech Emotion Recognition [4.4212441764241]
本研究では,多くの音声タスクに使用される1種類のモデルのバイアスを検出する手法であるSpeech Embedding Association Test(SpEAT)を提案する。
SpEATを用いて、16の英語音声モデルにおいて6種類のバイアスをテストした。
私たちの研究は、テキストや画像ベースのモデルのように、事前訓練された音声ベースのモデルは、しばしば人間のようなバイアスを学習する、という証拠を提供します。
論文 参考訳(メタデータ) (2023-10-29T02:27:56Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - SQuId: Measuring Speech Naturalness in Many Languages [20.179329418187354]
SQuIdは、100万以上の評価に基づいて訓練され、65の地域でテストされた多言語自然性予測モデルである。
多くのローカルで1つのモデルをトレーニングすることは、モノローカライズベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-12T15:43:09Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - ASR4REAL: An extended benchmark for speech models [19.348785785921446]
モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。
その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違が見られることが判明した。
テストされたすべてのモデルは、会話音声でのテストでは、強いパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2021-10-16T14:34:25Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。