論文の概要: Decoding the Ear: A Framework for Objectifying Expressiveness from Human Preference Through Efficient Alignment
- arxiv url: http://arxiv.org/abs/2510.20513v1
- Date: Thu, 23 Oct 2025 12:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.924716
- Title: Decoding the Ear: A Framework for Objectifying Expressiveness from Human Preference Through Efficient Alignment
- Title(参考訳): 耳のデコード:効率的なアライメントによる人間の嗜好から表現性を識別するフレームワーク
- Authors: Zhiyu Lin, Jingwen Yang, Jiale Zhao, Meng Liu, Sunzhu Li, Benyou Wang,
- Abstract要約: 音声表現性に対する人間の嗜好を客観的なスコアに変換するフレームワークであるDeEARを提案する。
DeEARは500点以下の注釈付きサンプルを用いて、感情、韻律、自発性の3次元にわたる音声を評価する。
S2Sモデル間の表現性ギャップを区別するだけでなく、14Kの表現性発話を選択してExpressiveSpeechを形成する。
- 参考スコア(独自算出の注目度): 30.276209873497027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent speech-to-speech (S2S) models generate intelligible speech but still lack natural expressiveness, largely due to the absence of a reliable evaluation metric. Existing approaches, such as subjective MOS ratings, low-level acoustic features, and emotion recognition are costly, limited, or incomplete. To address this, we present DeEAR (Decoding the Expressive Preference of eAR), a framework that converts human preference for speech expressiveness into an objective score. Grounded in phonetics and psychology, DeEAR evaluates speech across three dimensions: Emotion, Prosody, and Spontaneity, achieving strong alignment with human perception (Spearman's Rank Correlation Coefficient, SRCC = 0.86) using fewer than 500 annotated samples. Beyond reliable scoring, DeEAR enables fair benchmarking and targeted data curation. It not only distinguishes expressiveness gaps across S2S models but also selects 14K expressive utterances to form ExpressiveSpeech, which improves the expressive score (from 2.0 to 23.4 on a 100-point scale) of S2S models. Demos and codes are available at https://github.com/FreedomIntelligence/ExpressiveSpeech
- Abstract(参考訳): 最近の音声音声合成(S2S)モデルでは,信頼度評価基準が欠如していることから,理解可能な音声を生成するが,自然な表現性が欠如している。
主観的MOS評価、低レベル音響特徴、感情認識といった既存のアプローチは、コスト、制限、不完全である。
そこで本研究では,音声表現性に対する人間の嗜好を客観的スコアに変換するフレームワークであるDeEAR(Decoding the Expressive Preference of eAR)を提案する。
DeEARは、感情、韻律、自発性の3つの次元にわたる音声を評価し、500点未満の注釈付きサンプルを用いて、人間の知覚(スピアマンのランク相関係数、SRCC = 0.86)と強い整合性を達成する。
信頼できるスコアリング以外にも、DeEARは公正なベンチマークとターゲットデータキュレーションを可能にしている。
S2Sモデルの表現性ギャップを区別するだけでなく、S2Sモデルの表現性スコア(100点スケールで2.0から23.4まで)を改善するExpressiveSpeechを形成するために14Kの表現性発話を選択する。
デモとコードはhttps://github.com/FreedomIntelligence/ExpressiveSpeechで公開されている。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Towards Improving NAM-to-Speech Synthesis Intelligibility using Self-Supervised Speech Models [24.943609458024596]
そこで本研究では,音声変換タスクにおける非可聴型Murmur(NAM)の信頼性を向上するための新しい手法を提案する。
本手法は, 音声合成の自己超越と音声合成に頼っている。
本手法は,Mel-Cepstral Distortion(MCD)測定値の29.08%の改善により,現在のSOTA(State-of-the-art)を上回った。
論文 参考訳(メタデータ) (2024-07-26T06:44:01Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z) - A Holistic Cascade System, benchmark, and Human Evaluation Protocol for
Expressive Speech-to-Speech Translation [45.47457657122893]
表現型音声音声合成(S2ST)は,翻訳精度を維持しつつ,音源音声の韻律的属性を対象音声に伝達することを目的としている。
既存のS2STの研究は限定的であり、通常は一度に1つの表現性に焦点をあてる。
そこで本稿では,S2ST表現のための包括的カスケードシステムを提案する。
論文 参考訳(メタデータ) (2023-01-25T14:27:00Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Comparing Supervised Models And Learned Speech Representations For
Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。
各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文 参考訳(メタデータ) (2021-07-08T17:24:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。