Fugu-MT 論文翻訳(概要): S-VoCAL: A Dataset and Evaluation Framework for Inferring Speaking Voice Character Attributes in Literature

論文の概要: S-VoCAL: A Dataset and Evaluation Framework for Inferring Speaking Voice Character Attributes in Literature

arxiv url: http://arxiv.org/abs/2603.00958v1
Date: Sun, 01 Mar 2026 07:24:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.431395
Title: S-VoCAL: A Dataset and Evaluation Framework for Inferring Speaking Voice Character Attributes in Literature
Title（参考訳）: S-VoCAL:文学における音声文字属性推定のためのデータセットと評価フレームワーク
Authors: Abigail Berthe-Pardo, Gaspard Michel, Elena V. Epure, Christophe Cerisara,
Abstract要約: S-VoCAL(S-VoCAL)は,音声関連キャラクタ属性の推論評価を目的とした,最初のデータセットおよび評価フレームワークである。 S-VoCALは社会音韻研究に根ざした8つの属性と、プロジェクト・グーテンベルクから派生した922の文字ブックを包含している。以上の結果から,RAGパイプラインは年齢やジェンダーなどの属性を確実に推測するが,オリジンや身体健康など他の特性に苦慮していることが示唆された。
参考スコア（独自算出の注目度）: 9.09344103114193
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With recent advances in Text-to-Speech (TTS) systems, synthetic audiobook narration has seen increased interest, reaching unprecedented levels of naturalness. However, larger gaps remain in synthetic narration systems' ability to impersonate fictional characters, and convey complex emotions or prosody. A promising direction to enhance character identification is the assignment of plausible voices to each fictional characters in a book. This step typically requires complex inference of attributes in book-length contexts, such as a character's age, gender, origin or physical health, which in turns requires dedicated benchmark datasets to evaluate extraction systems' performances. We present S-VoCAL (Speaking Voice Character Attributes in Literature), the first dataset and evaluation framework dedicated to evaluate the inference of voice-related fictional character attributes. S-VoCAL entails 8 attributes grounded in sociophonetic studies, and 952 character-book pairs derived from Project Gutenberg. Its evaluation framework addresses the particularities of each attribute, and includes a novel similarity metric based on recent Large Language Models embeddings. We demonstrate the applicability of S-VoCAL by applying a simple Retrieval-Augmented Generation (RAG) pipeline to the task of inferring character attributes. Our results suggest that the RAG pipeline reliably infers attributes such as Age or Gender, but struggles on others such as Origin or Physical Health. The dataset and evaluation code are available at https://github.com/AbigailBerthe/S-VoCAL .
Abstract（参考訳）: 近年のTTS(Text-to-Speech)システムの発展により、合成オーディオブックのナレーションへの関心が高まり、これまでにないほど自然性に達している。しかし、複雑な感情や韻律を伝達する合成ナレーションシステムでは大きなギャップが残っている。キャラクタ識別を強化するための有望な方向は、本の中の各架空のキャラクタに対して、もっともらしい声を割り当てることである。このステップは典型的には、文字の年齢、性別、起源、身体の健康といった、本の長さの文脈における属性の複雑な推論を必要とする。本稿では,S-VoCAL(Speaking Voice Character Attributes in Literature)について述べる。 S-VoCALは社会音韻研究に根ざした8つの属性と、プロジェクト・グーテンベルクから派生した922の文字ブックを包含している。その評価フレームワークは各属性の特異性に対処し、最近のLarge Language Modelsの埋め込みに基づく新しい類似度指標を含む。本稿では,S-VoCALのキャラクタ属性を推定するタスクに対して,単純な検索型拡張生成(RAG)パイプラインを適用することで,S-VoCALの適用性を示す。以上の結果から,RAGパイプラインは年齢やジェンダーなどの属性を確実に推測するが,オリジンや身体健康など他の特性に苦慮していることが示唆された。データセットと評価コードはhttps://github.com/AbigailBerthe/S-VoCALで公開されている。

関連論文リスト

AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。 AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文参考訳（メタデータ） (2026-01-21T07:35:36Z)
Dynamic Context Adaptation for Consistent Role-Playing Agents with Retrieval-Augmented Generations [1.1740676332544449]
ロールプレイングエージェント(RPAs)のためのトレーニングフリーフレームワークであるAmadeusを提案する。アマデウスフレームワークは、キャラクタの知識を超えた質問に応答しても、ペルソナの一貫性を著しく向上させることができる。
論文参考訳（メタデータ） (2025-08-04T03:27:05Z)
SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文参考訳（メタデータ） (2025-08-04T03:18:36Z)
VANPY: Voice Analysis Framework [0.0]
我々は,自動前処理,特徴抽出,音声データの分類を行うVANPYフレームワークを開発した。フレームワークの4つのコンポーネントは社内で開発され、話者のキャラクタリゼーション機能を拡張するためにフレームワークに統合された。映画"Pulp Fiction"の文字音声分析における使用事例から, 話者特性を抽出するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2025-02-17T21:12:57Z)
BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文参考訳（メタデータ） (2024-10-14T10:55:58Z)
Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文参考訳（メタデータ） (2024-09-20T14:56:33Z)
Improving Quotation Attribution with Fictional Character Embeddings [11.259583037191772]
本稿では,文字のグローバルなスタイリスティックな情報をエンコードする文字埋め込みにより,人気のある引用帰属システムであるBookNLPを提案する。提案するグローバル文字埋め込みとBookNLPの文脈情報を組み合わせることで,アナフォリックおよび暗黙的引用のための話者識別が向上することを示す。
論文参考訳（メタデータ） (2024-06-17T09:46:35Z)
Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。 SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文参考訳（メタデータ） (2023-11-04T04:54:17Z)
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。 LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文参考訳（メタデータ） (2022-05-09T16:57:35Z)
Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文参考訳（メタデータ） (2021-06-11T20:15:21Z)
Deep Learning for Prominence Detection in Children's Read Speech [13.041607703862724]
子どもの読書記録のラベル付きデータセットを,話者に依存しない著名単語の検出のために検討する。事前調整されたランダムフォレストアンサンブル予測器をRNNシーケンスに置き換え、潜在的なコンテキスト依存性を利用する。深層学習を用いて、基本周波数、強度、スペクトル形状の低レベル音響輪郭から単語レベル特徴を得る。
論文参考訳（メタデータ） (2021-04-12T14:15:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。