論文の概要: VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models
- arxiv url: http://arxiv.org/abs/2505.15727v1
- Date: Wed, 21 May 2025 16:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.778924
- Title: VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models
- Title(参考訳): VocalBench:音声対話モデルのための音声会話能力のベンチマーク
- Authors: Heyang Liu, Yuhao Wang, Ziyang Cheng, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang,
- Abstract要約: 音声通信における音声対話モデルの能力を評価するためのベンチマークであるVocalBenchを提案する。
VocalBenchは、セマンティック品質、アコースティックパフォーマンス、会話能力、ロバストネスの4つの重要なディメンションにわたって、9,400の慎重にキュレーションされたインスタンスで構成されている。
実験結果から、現在のモデル能力に有意な変動が見られ、それぞれ異なる強度と弱点が示される。
- 参考スコア(独自算出の注目度): 26.34810950257782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has accelerated the development of multi-modal models capable of vocal communication. Unlike text-based interactions, speech conveys rich and diverse information, including semantic content, acoustic variations, paralanguage cues, and environmental context. However, existing evaluations of speech interaction models predominantly focus on the quality of their textual responses, often overlooking critical aspects of vocal performance and lacking benchmarks with vocal-specific test instances. To address this gap, we propose VocalBench, a comprehensive benchmark designed to evaluate speech interaction models' capabilities in vocal communication. VocalBench comprises 9,400 carefully curated instances across four key dimensions: semantic quality, acoustic performance, conversational abilities, and robustness. It covers 16 fundamental skills essential for effective vocal interaction. Experimental results reveal significant variability in current model capabilities, each exhibiting distinct strengths and weaknesses, and provide valuable insights to guide future research in speech-based interaction systems. Code and evaluation instances are available at https://github.com/SJTU-OmniAgent/VocalBench.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により,音声通信が可能なマルチモーダルモデルの開発が加速された。
テキストベースの対話とは異なり、音声は意味的内容、音響的バリエーション、パラ言語的手がかり、環境コンテキストなど、豊かで多様な情報を伝達する。
しかし、既存の音声対話モデルの評価は、主にテキスト応答の質に焦点を合わせており、しばしば発声性能の重要な側面を見落とし、発声固有のテストインスタンスを持つベンチマークを欠いている。
このギャップに対処するため,音声通信における音声対話モデルの能力を評価するための総合的なベンチマークであるVocalBenchを提案する。
VocalBenchは、セマンティック品質、アコースティックパフォーマンス、会話能力、ロバストネスの4つの重要なディメンションにわたって、9,400の慎重にキュレーションされたインスタンスで構成されている。
効果的な音声対話に必要な16の基本的なスキルをカバーしている。
実験結果から,現在のモデル能力に有意な変動が見られ,それぞれに異なる強みと弱みが示され,音声に基づく対話システムにおける今後の研究の指針となる貴重な洞察が得られた。
コードと評価のインスタンスはhttps://github.com/SJTU-OmniAgent/VocalBench.comで入手できる。
関連論文リスト
- SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [52.29009595100625]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - MultiVox: Benchmarking Voice Assistants for Multimodal Interactions [43.55740197419447]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
9つの最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に基礎付けられた応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z) - VANPY: Voice Analysis Framework [0.0]
我々は,自動前処理,特徴抽出,音声データの分類を行うVANPYフレームワークを開発した。
フレームワークの4つのコンポーネントは社内で開発され、話者のキャラクタリゼーション機能を拡張するためにフレームワークに統合された。
映画"Pulp Fiction"の文字音声分析における使用事例から, 話者特性を抽出するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2025-02-17T21:12:57Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。