論文の概要: RedPen: Region- and Reason-Annotated Dataset of Unnatural Speech
- arxiv url: http://arxiv.org/abs/2210.14406v1
- Date: Wed, 26 Oct 2022 01:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:21:10.298895
- Title: RedPen: Region- and Reason-Annotated Dataset of Unnatural Speech
- Title(参考訳): RedPen:非自然な音声の領域と推論アノテーション付きデータセット
- Authors: Kyumin Park, Keon Lee, Daeyoung Kim, Dongyeop Kang
- Abstract要約: 本研究では,不自然な音声領域に人間のアノテーションを付加した新しい音声データセットRedPenとその対応理由について述べる。
RedPenは180の合成スピーチと、群衆労働者が注釈を付けた非自然の領域で構成されている。
我々のデータセットは、モデル駆動の非自然性予測よりも、不自然な音声領域をよりよく説明できることがわかった。
- 参考スコア(独自算出の注目度): 11.059527627722272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even with recent advances in speech synthesis models, the evaluation of such
models is based purely on human judgement as a single naturalness score, such
as the Mean Opinion Score (MOS). The score-based metric does not give any
further information about which parts of speech are unnatural or why human
judges believe they are unnatural. We present a novel speech dataset, RedPen,
with human annotations on unnatural speech regions and their corresponding
reasons. RedPen consists of 180 synthesized speeches with unnatural regions
annotated by crowd workers; These regions are then reasoned and categorized by
error types, such as voice trembling and background noise. We find that our
dataset shows a better explanation for unnatural speech regions than the
model-driven unnaturalness prediction. Our analysis also shows that each model
includes different types of error types. Summing up, our dataset successfully
shows the possibility that various error regions and types lie under the single
naturalness score. We believe that our dataset will shed light on the
evaluation and development of more interpretable speech models in the future.
Our dataset will be publicly available upon acceptance.
- Abstract(参考訳): 近年の音声合成モデルの発展にもかかわらず、そのようなモデルの評価は、MOS(Mean Opinion Score)のような自然度スコアとして純粋に人間の判断に基づいている。
スコアベースのメトリクスは、音声のどの部分が不自然であるか、なぜ人間の判断が不自然であると信じているのかについて、それ以上の情報は提供しない。
非自然な音声領域に人間のアノテーションを付加した新しい音声データセットRedPenとその対応について述べる。
redpenは180個の合成音声からなり、群集作業員がアノテートした不自然な領域は、音声の震えや背景雑音などのエラータイプによって推論され分類される。
我々のデータセットは、モデル駆動の非自然性予測よりも、不自然な音声領域をよりよく説明できる。
分析の結果,各モデルに異なるタイプのエラーがあることがわかった。
要約すると、我々のデータセットは、様々なエラー領域と型が単一の自然度スコアの下にある可能性を示す。
我々は,我々のデータセットが将来,より解釈可能な音声モデルの評価と開発に光を当てると考えている。
私たちのデータセットは受け入れ次第公開されます。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Speech language models lack important brain-relevant semantics [6.626540321463248]
近年の研究では、テキストベースの言語モデルは、テキスト誘発脳活動と音声誘発脳活動の両方を驚くほど予測している。
このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。
論文 参考訳(メタデータ) (2023-11-08T13:11:48Z) - Pre-trained Speech Processing Models Contain Human-Like Biases that
Propagate to Speech Emotion Recognition [4.4212441764241]
本研究では,多くの音声タスクに使用される1種類のモデルのバイアスを検出する手法であるSpeech Embedding Association Test(SpEAT)を提案する。
SpEATを用いて、16の英語音声モデルにおいて6種類のバイアスをテストした。
私たちの研究は、テキストや画像ベースのモデルのように、事前訓練された音声ベースのモデルは、しばしば人間のようなバイアスを学習する、という証拠を提供します。
論文 参考訳(メタデータ) (2023-10-29T02:27:56Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - ASR4REAL: An extended benchmark for speech models [19.348785785921446]
モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。
その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違が見られることが判明した。
テストされたすべてのモデルは、会話音声でのテストでは、強いパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2021-10-16T14:34:25Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。