論文の概要: VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models
- arxiv url: http://arxiv.org/abs/2505.15727v1
- Date: Wed, 21 May 2025 16:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.778924
- Title: VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models
- Title(参考訳): VocalBench:音声対話モデルのための音声会話能力のベンチマーク
- Authors: Heyang Liu, Yuhao Wang, Ziyang Cheng, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang,
- Abstract要約: 音声通信における音声対話モデルの能力を評価するためのベンチマークであるVocalBenchを提案する。
VocalBenchは、セマンティック品質、アコースティックパフォーマンス、会話能力、ロバストネスの4つの重要なディメンションにわたって、9,400の慎重にキュレーションされたインスタンスで構成されている。
実験結果から、現在のモデル能力に有意な変動が見られ、それぞれ異なる強度と弱点が示される。
- 参考スコア(独自算出の注目度): 26.34810950257782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has accelerated the development of multi-modal models capable of vocal communication. Unlike text-based interactions, speech conveys rich and diverse information, including semantic content, acoustic variations, paralanguage cues, and environmental context. However, existing evaluations of speech interaction models predominantly focus on the quality of their textual responses, often overlooking critical aspects of vocal performance and lacking benchmarks with vocal-specific test instances. To address this gap, we propose VocalBench, a comprehensive benchmark designed to evaluate speech interaction models' capabilities in vocal communication. VocalBench comprises 9,400 carefully curated instances across four key dimensions: semantic quality, acoustic performance, conversational abilities, and robustness. It covers 16 fundamental skills essential for effective vocal interaction. Experimental results reveal significant variability in current model capabilities, each exhibiting distinct strengths and weaknesses, and provide valuable insights to guide future research in speech-based interaction systems. Code and evaluation instances are available at https://github.com/SJTU-OmniAgent/VocalBench.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により,音声通信が可能なマルチモーダルモデルの開発が加速された。
テキストベースの対話とは異なり、音声は意味的内容、音響的バリエーション、パラ言語的手がかり、環境コンテキストなど、豊かで多様な情報を伝達する。
しかし、既存の音声対話モデルの評価は、主にテキスト応答の質に焦点を合わせており、しばしば発声性能の重要な側面を見落とし、発声固有のテストインスタンスを持つベンチマークを欠いている。
このギャップに対処するため,音声通信における音声対話モデルの能力を評価するための総合的なベンチマークであるVocalBenchを提案する。
VocalBenchは、セマンティック品質、アコースティックパフォーマンス、会話能力、ロバストネスの4つの重要なディメンションにわたって、9,400の慎重にキュレーションされたインスタンスで構成されている。
効果的な音声対話に必要な16の基本的なスキルをカバーしている。
実験結果から,現在のモデル能力に有意な変動が見られ,それぞれに異なる強みと弱みが示され,音声に基づく対話システムにおける今後の研究の指針となる貴重な洞察が得られた。
コードと評価のインスタンスはhttps://github.com/SJTU-OmniAgent/VocalBench.comで入手できる。
関連論文リスト
- VANPY: Voice Analysis Framework [0.0]
我々は,自動前処理,特徴抽出,音声データの分類を行うVANPYフレームワークを開発した。
フレームワークの4つのコンポーネントは社内で開発され、話者のキャラクタリゼーション機能を拡張するためにフレームワークに統合された。
映画"Pulp Fiction"の文字音声分析における使用事例から, 話者特性を抽出するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2025-02-17T21:12:57Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。