論文の概要: S2SBench: A Benchmark for Quantifying Intelligence Degradation in Speech-to-Speech Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14438v1
- Date: Tue, 20 May 2025 14:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.371374
- Title: S2SBench: A Benchmark for Quantifying Intelligence Degradation in Speech-to-Speech Large Language Models
- Title(参考訳): S2SBench: 音声から音声への大言語モデルにおける知能劣化の定量化のためのベンチマーク
- Authors: Yuanbo Fang, Haoze Sun, Jun Liu, Tao Zhang, Zenan Zhou, Weipeng Chen, Xiaofen Xing, Xiangmin Xu,
- Abstract要約: エンドツーエンドの音声大言語モデル(LLM)は、音声トークンを直接処理し、生成するテキストベースモデルの能力を拡張している。
これはしばしばテキスト入力と比較して推論と生成性能が低下する。
音声LLMの性能劣化を定量化するベンチマークであるS2SBenchを提案する。
- 参考スコア(独自算出の注目度): 14.060679420379516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end speech large language models ((LLMs)) extend the capabilities of text-based models to directly process and generate audio tokens. However, this often leads to a decline in reasoning and generation performance compared to text input, a phenomenon referred to as intelligence degradation. To systematically evaluate this gap, we propose S2SBench, a benchmark designed to quantify performance degradation in Speech LLMs. It includes diagnostic datasets targeting sentence continuation and commonsense reasoning under audio input. We further introduce a pairwise evaluation protocol based on perplexity differences between plausible and implausible samples to measure degradation relative to text input. We apply S2SBench to analyze the training process of Baichuan-Audio, which further demonstrates the benchmark's effectiveness. All datasets and evaluation code are available at https://github.com/undobug/S2SBench.
- Abstract(参考訳): エンドツーエンドの音声大言語モデル(LLM)は、音声トークンを直接処理し、生成するテキストベースモデルの能力を拡張している。
しかし、これはしばしば、インテリジェンス劣化と呼ばれる現象であるテキスト入力と比較して、推論と生成性能が低下する。
このギャップを体系的に評価するために,音声LLMの性能劣化を定量化するベンチマークS2SBenchを提案する。
音声入力下での文継続と常識推論を対象とする診断データセットを含む。
さらに、テキスト入力に対する劣化を測定するために、可塑性と可解なサンプル間の難易度差に基づくペアワイズ評価プロトコルを導入する。
S2SBenchをBaichuan-Audioのトレーニングプロセスの解析に適用し、ベンチマークの有効性をさらに実証する。
すべてのデータセットと評価コードはhttps://github.com/undobug/S2SBench.comで公開されている。
関連論文リスト
- SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。
SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文 参考訳(メタデータ) (2025-04-22T01:05:32Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - A Holistic Cascade System, benchmark, and Human Evaluation Protocol for
Expressive Speech-to-Speech Translation [45.47457657122893]
表現型音声音声合成(S2ST)は,翻訳精度を維持しつつ,音源音声の韻律的属性を対象音声に伝達することを目的としている。
既存のS2STの研究は限定的であり、通常は一度に1つの表現性に焦点をあてる。
そこで本稿では,S2ST表現のための包括的カスケードシステムを提案する。
論文 参考訳(メタデータ) (2023-01-25T14:27:00Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。