論文の概要: S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information
- arxiv url: http://arxiv.org/abs/2503.05085v1
- Date: Fri, 07 Mar 2025 02:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:21:12.531409
- Title: S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information
- Title(参考訳): パラ言語情報を用いた音声2音声プロトコルS2S-Arena
- Authors: Feng Jiang, Zhiyu Lin, Fan Bu, Yuhao Du, Benyou Wang, Haizhou Li,
- Abstract要約: パラ言語情報を用いた命令追従機能の評価を行う,新しいアリーナスタイルのS2SベンチマークであるS2S-Arenaを紹介する。
GPT-4oの優れた性能に加えて、カスケードされたASR, LLM, TTSの音声モデルは、音声2音声プロトコルにおけるテキスト・音声アライメント後に共同訓練されたモデルよりも優れる。
- 参考スコア(独自算出の注目度): 47.950757976473035
- License:
- Abstract: The rapid development of large language models (LLMs) has brought significant attention to speech models, particularly recent progress in speech2speech protocols supporting speech input and output. However, the existing benchmarks adopt automatic text-based evaluators for evaluating the instruction following ability of these models lack consideration for paralinguistic information in both speech understanding and generation. To address these issues, we introduce S2S-Arena, a novel arena-style S2S benchmark that evaluates instruction-following capabilities with paralinguistic information in both speech-in and speech-out across real-world tasks. We design 154 samples that fused TTS and live recordings in four domains with 21 tasks and manually evaluate existing popular speech models in an arena-style manner. The experimental results show that: (1) in addition to the superior performance of GPT-4o, the speech model of cascaded ASR, LLM, and TTS outperforms the jointly trained model after text-speech alignment in speech2speech protocols; (2) considering paralinguistic information, the knowledgeability of the speech model mainly depends on the LLM backbone, and the multilingual support of that is limited by the speech module; (3) excellent speech models can already understand the paralinguistic information in speech input, but generating appropriate audio with paralinguistic information is still a challenge.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展は、音声モデル、特に音声入力と出力をサポートする音声2音声プロトコルの最近の進歩に大きな注目を集めている。
しかし、既存のベンチマークでは、これらのモデルの命令に従う能力を評価するために、音声理解と生成の両方においてパラ言語情報の考慮が欠如している。
これらの問題に対処するため,S2S-Arenaという新しいアリーナスタイルのS2Sベンチマークを導入する。
我々は,TTSとライブ録音を21のタスクで4つのドメインで融合した154のサンプルを設計し,既存の音声モデルをアリーナ方式で手動で評価する。
実験結果から,(1)GPT-4oの優れた性能に加えて,(1)音声2音声プロトコルにおける音声・音声アライメント後の音声モデル,(2)パラ言語的情報を考慮すると,音声モデルの知識性は主にLLMバックボーンに依存し,その多言語的サポートは音声モジュールによって制限される,(3)優れた音声モデルは音声入力におけるパラ言語的情報を既に理解することができるが,パラ言語的情報による適切な音声生成は依然として困難であることが示唆された。
関連論文リスト
- Direct Speech-to-Speech Neural Machine Translation: A Survey [0.8999666725996978]
音声から音声への翻訳(S2ST)は、ある言語から同じ言語情報を持つ他の対象言語への変換をモデル化する。
近年,中間テキスト生成に頼らずに音声を翻訳できる直接S2STモデルが提案されている。
しかし、直接S2STはシームレス通信のための品質性能をまだ達成しておらず、性能面ではカスケードモデルに遅れを取っている。
論文 参考訳(メタデータ) (2024-11-13T13:01:21Z) - StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning [48.84039953531356]
StreamSpeechは、翻訳と同時ポリシーを共同で学習するSimul-S2STモデルである。
CVSSベンチマークの実験では、StreamSpeechはオフラインS2STタスクとSimul-S2STタスクの両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-05T08:24:22Z) - SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought [12.54786997634534]
本研究は,S2STのための単一言語モデルであるSeamlessExpressiveLMを提案する。
我々は、複雑なソースからターゲットへの音声マッピングを、チェーン・オブ・シークレット・プロンプトで中間生成ステップに分解する。
モデルはまずターゲットのセマンティックコンテンツを翻訳し、次に話者スタイルをマルチストリーム音響ユニットに転送する。
論文 参考訳(メタデータ) (2024-05-30T18:28:31Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。