論文の概要: Recent Advances in Discrete Speech Tokens: A Review
- arxiv url: http://arxiv.org/abs/2502.06490v2
- Date: Sun, 16 Feb 2025 08:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:03:05.448685
- Title: Recent Advances in Discrete Speech Tokens: A Review
- Title(参考訳): 離散音声トークンの最近の進歩 : レビュー
- Authors: Yiwei Guo, Zhihan Li, Hankun Wang, Bohan Li, Chongtian Shao, Hanglei Zhang, Chenpeng Du, Xie Chen, Shujie Liu, Kai Yu,
- Abstract要約: 離散的な音声トークンは、その離散的でコンパクトで簡潔な性質によって特徴づけられ、効率的な伝送と記憶に有利である。
現在の研究は、個別の音声トークンを音響トークンと意味トークンの2つの主要なクラスに分類し、それぞれがリッチな研究領域へと発展してきた。
本研究は,既存の分類学と最近の音声トークン化の革新を体系的に合成し,各パラダイムの長所と短所を批判的に検討し,トークンタイプ間での系統的比較を提示する。
- 参考スコア(独自算出の注目度): 25.038527125935747
- License:
- Abstract: The rapid advancement of speech generation technologies in the era of large language models (LLMs) has established discrete speech tokens as a foundational paradigm for speech representation. These tokens, characterized by their discrete, compact, and concise nature, are not only advantageous for efficient transmission and storage, but also inherently compatible with the language modeling framework, enabling seamless integration of speech into text-dominated LLM architectures. Current research categorizes discrete speech tokens into two principal classes: acoustic tokens and semantic tokens, each of which has evolved into a rich research domain characterized by unique design philosophies and methodological approaches. This survey systematically synthesizes the existing taxonomy and recent innovations in discrete speech tokenization, conducts a critical examination of the strengths and limitations of each paradigm, and presents systematic experimental comparisons across token types. Furthermore, we identify persistent challenges in the field and propose potential research directions, aiming to offer actionable insights to inspire future advancements in the development and application of discrete speech tokens.
- Abstract(参考訳): 大規模言語モデル(LLM)の時代における音声生成技術の急速な進歩は、音声表現の基礎パラダイムとして、個別の音声トークンを確立している。
これらのトークンは、その離散的でコンパクトで簡潔な性質を特徴とし、効率的な伝送と記憶のために有利であるだけでなく、言語モデリングフレームワークと本質的に互換性があり、テキストで支配されたLLMアーキテクチャへの音声のシームレスな統合を可能にする。
現在の研究は、個別の音声トークンを、音響トークンと意味トークンの2つの主要なクラスに分類している。
本研究は,既存の分類学と最近の音声トークン化の革新を体系的に合成し,各パラダイムの長所と短所を批判的に検討し,トークンタイプ間での系統的比較を提示する。
さらに、この分野における永続的な課題を特定し、個別の音声トークンの開発と応用における今後の進歩を刺激する実用的な洞察を提供することを目的として、潜在的研究方向性を提案する。
関連論文リスト
- A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models [46.298114175792584]
様々な意味的タスクにおける離散的特徴と連続的特徴の公平かつ徹底的な比較を示す。
連続的な特徴は一般に離散トークンよりも優れており、特に微粒な意味理解を必要とするタスクにおいて顕著である。
論文 参考訳(メタデータ) (2024-11-13T16:20:20Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - DASB -- Discrete Audio and Speech Benchmark [12.02056212008393]
我々は、様々なタスクで離散オーディオトークンをベンチマークするためのリーダーボードである、離散オーディオおよび音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現の間のパフォーマンスのギャップは依然として大きい。
論文 参考訳(メタデータ) (2024-06-20T13:23:27Z) - Non-verbal information in spontaneous speech -- towards a new framework
of analysis [0.5559722082623594]
本稿では,韻律信号の分類のための解析的スキーマと技術的概念実証を提供する。
3つの順序の韻律現象を解き放つ分類過程を示す。
散在する韻律パターンは、コミュニケーションと音声の組織化の理論を導くことができる。
論文 参考訳(メタデータ) (2024-03-06T08:03:05Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Learning utterance-level representations through token-level acoustic
latents prediction for Expressive Speech Synthesis [3.691712391306624]
細粒度潜在空間もまた粗粒度情報を捉えており、これは多彩な韻律表現を捉えるために潜在空間の次元が大きくなるにつれて明らかである。
本稿では、まず、豊富な音声属性をトークンレベル潜在空間にキャプチャし、入力テキストを付与した先行ネットワークを個別に訓練し、前ステップで抽出した音素レベル後潜在音を予測するために、発話レベル表現を学習することでこの問題を軽減する。
論文 参考訳(メタデータ) (2022-11-01T15:17:25Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。