Fugu-MT 論文翻訳(概要): VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models

論文の概要: VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models

arxiv url: http://arxiv.org/abs/2505.15727v2
Date: Mon, 08 Sep 2025 07:29:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-09 14:07:03.065241
Title: VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models
Title（参考訳）: VocalBench:音声対話モデルのための音声会話能力のベンチマーク
Authors: Heyang Liu, Yuhao Wang, Ziyang Cheng, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang,
Abstract要約: 音声対話能力を評価するためにVocalBenchを提案する。 4つのキーディメンションにわたる9,400の慎重にキュレートされたインスタンスで構成されている。効果的な音声対話に不可欠な、幅広い基本的なスキルをカバーしている。
参考スコア（独自算出の注目度）: 31.584937435966253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of large language models (LLMs) has accelerated the development of multimodal models capable of speech communications. Unlike text interactions, speech conveys diverse information, including acoustic variations, paralanguage cues, and environmental context. However, existing evaluations of speech interaction models lack instances mimicking real scenarios and predominantly focus on the quality of their textual responses, overlooking critical aspects of vocal performance. To address this gap, we propose VocalBench, a comprehensive benchmark to assess the speech conversational abilities, comprising 9,400 carefully curated instances across four key dimensions: semantic quality, acoustic performance, conversational abilities, and robustness. It covers a broad range of fundamental skills essential for effective vocal interactions. For the evaluation scheme, we propose several objective evaluation indicators and incorporate an additional LLM-as-a-judge approach to score open-ended questions. Experimental results on 15 mainstream systems reveal significant variability, each exhibiting distinct strengths and weaknesses, and provide valuable insights to guide future research in speech interaction systems.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩により、音声通信が可能なマルチモーダルモデルの開発が加速された。テキストの相互作用とは異なり、音声は音響的変化、パラ言語的手がかり、環境状況など様々な情報を伝える。しかし、既存の音声対話モデルの評価では、実際のシナリオを模倣する事例が欠如しており、主に音声演奏の重要な側面を見越して、テキスト応答の品質に重点を置いている。このギャップに対処するために,VocalBenchを提案する。VocalBenchは音声対話能力を評価するための総合的なベンチマークであり,意味的品質,音響性能,会話能力,頑健さの4つの重要な領域で,9,400個の慎重にキュレートされたインスタンスから構成される。効果的な音声対話に不可欠な、幅広い基本的なスキルをカバーしている。評価スキームでは,複数の客観的評価指標を提案し,さらにLLM-as-a-judgeアプローチを導入して,オープンエンドの質問をスコアリングする。 15の主流システムに対する実験結果から,それぞれ異なる強みと弱みを示し,音声対話システムにおける今後の研究の指針となる貴重な知見が得られた。

関連論文リスト

SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [52.29009595100625]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文参考訳（メタデータ） (2025-08-04T03:18:36Z)
MultiVox: Benchmarking Voice Assistants for Multimodal Interactions [43.55740197419447]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。 9つの最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に基礎付けられた応答を生成するのに苦労していることを示している。
論文参考訳（メタデータ） (2025-07-14T23:20:42Z)
Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文参考訳（メタデータ） (2025-05-26T17:55:06Z)
VANPY: Voice Analysis Framework [0.0]
我々は,自動前処理,特徴抽出,音声データの分類を行うVANPYフレームワークを開発した。フレームワークの4つのコンポーネントは社内で開発され、話者のキャラクタリゼーション機能を拡張するためにフレームワークに統合された。映画"Pulp Fiction"の文字音声分析における使用事例から, 話者特性を抽出するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2025-02-17T21:12:57Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳（メタデータ） (2024-10-09T05:04:31Z)
Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT) モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文参考訳（メタデータ） (2023-12-23T18:14:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。