論文の概要: VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
- arxiv url: http://arxiv.org/abs/2509.09716v1
- Date: Tue, 09 Sep 2025 14:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.843863
- Title: VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
- Title(参考訳): VStyle: 音声命令による音声スタイル適応のベンチマーク
- Authors: Jun Zhan, Mingyang Han, Yuxuan Xie, Chen Wang, Dong Zhang, Kexin Huang, Haoxiang Shi, DongXiao Wang, Tengtao Song, Qinyuan Cheng, Shimin Li, Jun Song, Xipeng Qiu, Bo Zheng,
- Abstract要約: 音声理解と生成のための統一パラダイムとして、音声言語モデル(SLM)が登場した。
音声スタイル適応(VSA)は,SLMが話し方を変更することができるかどうかを調べる新しいタスクである。
音響属性,自然言語命令,ロールプレイ,暗黙の共感の4つのカテゴリを網羅したベンチマークであるVStyleを提案する。
また,Large Audio Language Model as a Judge (LALM as a Judge) フレームワークを導入し,文章の忠実性,スタイルの忠実性,自然性に沿って出力を段階的に評価する。
- 参考スコア(独自算出の注目度): 66.93932684284695
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spoken language models (SLMs) have emerged as a unified paradigm for speech understanding and generation, enabling natural human machine interaction. However, while most progress has focused on semantic accuracy and instruction following, the ability of SLMs to adapt their speaking style based on spoken instructions has received limited attention. We introduce Voice Style Adaptation (VSA), a new task that examines whether SLMs can modify their speaking style, such as timbre, prosody, or persona following natural language spoken commands. To study this task, we present VStyle, a bilingual (Chinese & English) benchmark covering four categories of speech generation: acoustic attributes, natural language instruction, role play, and implicit empathy. We also introduce the Large Audio Language Model as a Judge (LALM as a Judge) framework, which progressively evaluates outputs along textual faithfulness, style adherence, and naturalness, ensuring reproducible and objective assessment. Experiments on commercial systems and open source SLMs demonstrate that current models face clear limitations in controllable style adaptation, highlighting both the novelty and challenge of this task. By releasing VStyle and its evaluation toolkit, we aim to provide the community with a foundation for advancing human centered spoken interaction. The dataset and code are publicly available at \href{https://junzhan2000.github.io/VStyle.github.io/}{project's homepage}.
- Abstract(参考訳): 音声言語モデル(SLM)は、音声理解と生成のための統一パラダイムとして登場し、自然な人間のマシンインタラクションを可能にしている。
しかし、ほとんどの進歩は意味的精度と指示に焦点が当てられているが、音声による指示に基づく話し方への適応能力は、あまり注目されていない。
音声スタイル適応(VSA)は,SLMが音色,韻律,ペルソナなどの発話スタイルを自然言語音声コマンドに従って変更できるかどうかを調べる新しいタスクである。
この課題を研究するために、音響属性、自然言語命令、ロールプレイ、暗黙の共感の4つのカテゴリをカバーするバイリンガル(中国語と英語)ベンチマークVStyleを提案する。
また,Large Audio Language Model as a Judge (LALM as a Judge) フレームワークを導入し,文章の忠実性,スタイルの忠実性,自然性に沿ってアウトプットを段階的に評価し,再現性と客観的な評価を確実にする。
商用システムとオープンソースSLMの実験では、現在のモデルは制御可能なスタイル適応の明確な制限に直面しており、このタスクの新規性と課題の両方を強調している。
VStyleとその評価ツールキットをリリースすることにより、人間中心の音声対話を促進するための基盤をコミュニティに提供することを目指している。
データセットとコードは \href{https://junzhan2000.github.io/VStyle.github.io/}{project's homepage} で公開されている。
関連論文リスト
- Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations [65.29513437838457]
現在の2つの旋回が同じ文であっても、異なるスタイルで話されるときの応答は相変わらず異なる。
本稿では,言語内容と発話スタイルをモデル化できるSpken-LLMフレームワークを提案する。
StyleTalkデータセットを使用してSpoken-LLMをトレーニングし、Spoken-LLMが話し方を学ぶのに役立つ2段階のトレーニングパイプラインを作成します。
論文 参考訳(メタデータ) (2024-02-20T07:51:43Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - StyleCap: Automatic Speaking-Style Captioning from Speech Based on
Speech and Language Self-supervised Learning Models [17.945821635380614]
StyleCapは、音声に現れる話し方の自然言語記述を生成する方法である。
StyleCapは、音声と自然言語の記述のペアデータで訓練される。
論文 参考訳(メタデータ) (2023-11-28T04:49:17Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。