論文の概要: Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs
- arxiv url: http://arxiv.org/abs/2508.17863v1
- Date: Mon, 25 Aug 2025 10:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.725824
- Title: Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs
- Title(参考訳): 音声離散トークンと連続特徴 : 音声LLMにおける音声言語理解の比較分析
- Authors: Dingdong Wang, Junan Li, Mingyu Cui, Dongchao Yang, Xueyuan Chen, Helen Meng,
- Abstract要約: 音声処理には、離散トークンと連続的な特徴の2つの主要なアプローチが出現している。
自己教師付き学習(SSL)に基づく離散的かつ連続的な特徴を、同じ実験環境下で比較する。
その結果, 連続的な特徴は, 様々なタスクにおいて, 離散トークンよりも優れていた。
- 参考スコア(独自算出の注目度): 59.230858581944425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of Speech Large Language Models (SpeechLLMs), two dominant approaches have emerged for speech processing: discrete tokens and continuous features. Each approach has demonstrated strong capabilities in audio-related processing tasks. However, the performance gap between these two paradigms has not been thoroughly explored. To address this gap, we present a fair comparison of self-supervised learning (SSL)-based discrete and continuous features under the same experimental settings. We evaluate their performance across six spoken language understanding-related tasks using both small and large-scale LLMs (Qwen1.5-0.5B and Llama3.1-8B). We further conduct in-depth analyses, including efficient comparison, SSL layer analysis, LLM layer analysis, and robustness comparison. Our findings reveal that continuous features generally outperform discrete tokens in various tasks. Each speech processing method exhibits distinct characteristics and patterns in how it learns and processes speech information. We hope our results will provide valuable insights to advance spoken language understanding in SpeechLLMs.
- Abstract(参考訳): 音声大言語モデル(SpeechLLMs)の台頭に伴い、離散トークンと連続した特徴の2つの主要なアプローチが音声処理に現れている。
それぞれのアプローチは、音声関連処理タスクにおいて強力な機能を示している。
しかし、これらの2つのパラダイム間のパフォーマンスギャップは、完全には調査されていない。
このギャップに対処するため、同じ実験環境下で自己教師付き学習(SSL)に基づく離散的・連続的な特徴を公平に比較する。
我々は,小・大規模LLM(Qwen1.5-0.5BとLlama3.1-8B)を用いて,6つの言語理解タスクのパフォーマンスを評価する。
さらに、効率的な比較、SSL層分析、LCM層解析、ロバストネス比較など、詳細な分析を行う。
その結果, 連続的な特徴は, 様々なタスクにおいて, 離散トークンよりも優れていた。
それぞれの音声処理手法は、その学習方法と音声情報の処理方法において、異なる特徴とパターンを示す。
我々は,SpeechLLMsにおける音声言語理解の進展に貴重な洞察を得られることを願っている。
関連論文リスト
- What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Exploring the Effect of Segmentation and Vocabulary Size on Speech Tokenization for Speech Language Models [16.1461487947151]
音声トークン化は、音声信号を離散表現のシーケンスに変換する。
本稿では,音声トークン化の2つの重要な側面として,分割幅と離散単位のクラスタサイズについて検討する。
論文 参考訳(メタデータ) (2025-05-23T04:03:27Z) - A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models [46.298114175792584]
様々な意味的タスクにおける離散的特徴と連続的特徴の公平かつ徹底的な比較を示す。
連続的な特徴は一般に離散トークンよりも優れており、特に微粒な意味理解を必要とするタスクにおいて顕著である。
論文 参考訳(メタデータ) (2024-11-13T16:20:20Z) - Comparing Discrete and Continuous Space LLMs for Speech Recognition [46.70297458685438]
本稿では,Large Language Model(LLM)に基づく音声認識(ASR)における離散的かつ連続的な音声表現について検討する。
入力フィードバックと自己回帰フィードバックに基づいてLLMを連続空間モデルと離散空間モデルに分類する。
本稿では,HuBERTエンコーダを用いて,LibriSpeech上で1.69%の最先端ワード誤り率(WER)をオープンソースで達成する。
論文 参考訳(メタデータ) (2024-09-01T18:29:45Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。