Fugu-MT 論文翻訳(概要): AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

論文の概要: AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

arxiv url: http://arxiv.org/abs/2603.11482v1
Date: Thu, 12 Mar 2026 03:07:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.837252
Title: AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style
Title（参考訳）: AnimeScore: アニメ風の音声スタイルを評価するための選好ベースのデータセットとフレームワーク
Authors: Joonyong Park, Jerry Li,
Abstract要約: AnimeScoreは、ペアランキングによる自動アニメライクネス評価のための、好みベースのフレームワークである。我々は、手作りの音響機能は69.3%のAUC天井に到達し、SSLベースのランキングモデルは90.8%のAUCに達することを示した。
参考スコア（独自算出の注目度）: 6.949453644640367
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Evaluating 'anime-like' voices currently relies on costly subjective judgments, yet no standardized objective metric exists. A key challenge is that anime-likeness, unlike naturalness, lacks a shared absolute scale, making conventional Mean Opinion Score (MOS) protocols unreliable. To address this gap, we propose AnimeScore, a preference-based framework for automatic anime-likeness evaluation via pairwise ranking. We collect 15,000 pairwise judgments from 187 evaluators with free-form descriptions, and acoustic analysis reveals that perceived anime-likeness is driven by controlled resonance shaping, prosodic continuity, and deliberate articulation rather than simple heuristics such as high pitch. We show that handcrafted acoustic features reach a 69.3% AUC ceiling, while SSL-based ranking models achieve up to 90.8% AUC, providing a practical metric that can also serve as a reward signal for preference-based optimization of generative speech models.
Abstract（参考訳）: アニメのような」声の評価は、現在コストのかかる主観的な判断に依存しているが、標準化された客観的な計量は存在しない。重要な課題は、自然とは違ってアニメライクさは絶対スケールの共有に欠けており、従来の平均オピニオンスコア(MOS)プロトコルを信頼できないことである。このギャップに対処するために、ペアランキングによる自動アニメ類似度評価のための好みベースのフレームワークAnimeScoreを提案する。自由形記述を用いた187人の評価者から15,000対の判断を収集し,高ピッチのような単純なヒューリスティクスではなく,制御共振器の形状,韻律的連続性,意図的な調音によって知覚されたアニメ様の知覚が駆動されることを音響解析により明らかにした。我々は,手作り音響機能は69.3%のAUC天井に到達し,SSLベースのランキングモデルでは最大90.8%のAUCが得られることを示した。

関連論文リスト

Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play [68.54773980519457]
Speech-DRAMEは3つのレベルで貢献する統合フレームワークである。音声ロールプレイを評価するための、最初の包括的で再現可能な基盤を提供する。
論文参考訳（メタデータ） (2025-11-03T06:12:40Z)
Decoding the Ear: A Framework for Objectifying Expressiveness from Human Preference Through Efficient Alignment [30.276209873497027]
音声表現性に対する人間の嗜好を客観的なスコアに変換するフレームワークであるDeEARを提案する。 DeEARは500点以下の注釈付きサンプルを用いて、感情、韻律、自発性の3次元にわたる音声を評価する。 S2Sモデル間の表現性ギャップを区別するだけでなく、14Kの表現性発話を選択してExpressiveSpeechを形成する。
論文参考訳（メタデータ） (2025-10-23T12:57:46Z)
SALF-MOS: Speaker Agnostic Latent Features Downsampled for MOS Prediction [1.8862680628828246]
音声合成の評価は、客観的指標または主観的指標を用いて行うことができる。 Speaker Agnostic Latent Features (SALF)-Mean Opinion Score (MOS)は,5。畳み込みのシーケンスを用いて、平均二乗誤差(MSE)、線形一致相関係数(LCC)、スピアマンランク相関係数(SRCC)、ケンドールランク相関係数(KTAU)に基づいて、音声サンプルの潜時特徴を得る。
論文参考訳（メタデータ） (2025-06-02T10:45:40Z)
Aligning Anime Video Generation with Human Feedback [31.701968335565393]
アニメビデオ生成は、アニメデータの不足と異常な動きパターンのために大きな課題に直面している。既存の報酬モデルは、主に現実世界のビデオ用に設計されており、アニメのユニークな外観と一貫性の要求を捉えていない。そこで本研究では,人間のフィードバックを有効活用して,アニメ映像生成を向上するためのパイプラインを提案する。
論文参考訳（メタデータ） (2025-04-14T09:49:34Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。 Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文参考訳（メタデータ） (2023-10-19T17:59:01Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。