Fugu-MT 論文翻訳(概要): StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

論文の概要: StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

arxiv url: http://arxiv.org/abs/2603.07599v1
Date: Sun, 08 Mar 2026 11:58:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:14.900527
Title: StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control
Title（参考訳）: StyleBench:会話音声スタイル制御に基づく音声言語モデルの評価
Authors: Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo Zhu,
Abstract要約: 音声言語モデル(SLM)は、テキストベース大規模言語モデル(LLM)の対話能力を著しく拡張した。この結果から,主要なSLMとOmni言語モデル(OLM)のパフォーマンスギャップが明らかになった。
参考スコア（独自算出の注目度）: 31.566245098322224
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech language models (SLMs) have significantly extended the interactive capability of text-based Large Language Models (LLMs) by incorporating paralinguistic information. For more realistic interactive experience with customized styles, current SLMs have managed to interpret and control speaking style intensity from user prompts during the dialogue process. However, there remains a lack of systematic benchmarks that quantifies and evaluates the style intensity control ability in conversations. In this paper, we propose StyleBench, a multi-turn dialogue benchmark for comprehensively evaluating the style intensity control ability across four dimensions: emotion, speed, volume, and pitch. Our results reveal the performance gaps between leading SLMs and omni language models (OLMs), suggesting the underlying reasons and promising approaches for future exploration.
Abstract（参考訳）: 音声言語モデル(SLM)は、パラ言語情報を組み込んだテキストベース大規模言語モデル(LLM)の対話性を著しく拡張した。カスタマイズされたスタイルでよりリアルなインタラクティブな体験をするために、現在のSLMは、対話プロセス中にユーザプロンプトから発声スタイルの強度を解釈し、制御することができた。しかし、会話におけるスタイル強度制御能力を定量化し評価する体系的なベンチマークがまだ残っていない。本稿では,感情,速度,音量,ピッチの4次元にわたるスタイル強度制御能力を総合的に評価するマルチターン対話ベンチマークであるStyleBenchを提案する。この結果から,先進的なSLMとOmni言語モデル(OLM)のパフォーマンスギャップが明らかとなり,その基礎となる理由と今後の探索への有望なアプローチが示唆された。

関連論文リスト

VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions [66.93932684284695]
音声理解と生成のための統一パラダイムとして、音声言語モデル(SLM)が登場した。音声スタイル適応(VSA)は,SLMが話し方を変更することができるかどうかを調べる新しいタスクである。音響属性,自然言語命令,ロールプレイ,暗黙の共感の4つのカテゴリを網羅したベンチマークであるVStyleを提案する。また,Large Audio Language Model as a Judge (LALM as a Judge) フレームワークを導入し,文章の忠実性,スタイルの忠実性,自然性に沿って出力を段階的に評価する。
論文参考訳（メタデータ） (2025-09-09T14:28:58Z)
TELEVAL: A Dynamic Benchmark Designed for Spoken Language Models in Chinese Interactive Scenarios [47.08170350061827]
音声言語モデル(SLM)は近年急速に進歩し、性能評価のための多数のベンチマークが開発されている。既存のベンチマークのほとんどは、SLMが大規模言語モデル(LLM)と同等の複雑なタスクを実行できるかどうかを評価することに重点を置いている。リアルな中国語対話環境において,SLMの有効性を対話型エージェントとして評価するためのベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-24T03:23:55Z)
Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
SAGE: Steering Dialog Generation with Future-Aware State-Action Augmentation [9.95917154889491]
本稿では,潜時変数を用いた対話生成における長時間水平動作を制御するSAGEという新しい手法を提案する。我々の手法の中核は、標準言語モデルの微調整を強化したState-Action Chain (SAC) である。実験結果から,本手法を用いてトレーニングしたモデルでは,感情的インテリジェンス指標の性能が向上したことが示された。
論文参考訳（メタデータ） (2025-03-04T22:45:24Z)
StyleChat: Learning Recitation-Augmented Memory in LLMs for Stylized Dialogue Generation [43.29667566560533]
LLM(Large Language Models)の生成能力を活用することで38のスタイルを持つスタイル化された対話データセットであるStyleEvalを導入する。本稿では,多タスク型学習戦略と再帰型メモリ戦略を通したスタイル化対話フレームワークであるStyleChatを提案する。
論文参考訳（メタデータ） (2024-03-18T03:26:18Z)
Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文参考訳（メタデータ） (2024-02-08T14:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。