論文の概要: BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection
- arxiv url: http://arxiv.org/abs/2411.14100v2
- Date: Sat, 21 Dec 2024 19:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:13.268912
- Title: BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection
- Title(参考訳): BEST-STD:音声検出のための双方向マンバ強調音声トークン化
- Authors: Anup Singh, Kris Demuynck, Vipul Arora,
- Abstract要約: スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
- 参考スコア(独自算出の注目度): 8.303512060791736
- License:
- Abstract: Spoken term detection (STD) is often hindered by reliance on frame-level features and the computationally intensive DTW-based template matching, limiting its practicality. To address these challenges, we propose a novel approach that encodes speech into discrete, speaker-agnostic semantic tokens. This facilitates fast retrieval using text-based search algorithms and effectively handles out-of-vocabulary terms. Our approach focuses on generating consistent token sequences across varying utterances of the same term. We also propose a bidirectional state space modeling within the Mamba encoder, trained in a self-supervised learning framework, to learn contextual frame-level features that are further encoded into discrete tokens. Our analysis shows that our speech tokens exhibit greater speaker invariance than those from existing tokenizers, making them more suitable for STD tasks. Empirical evaluation on LibriSpeech and TIMIT databases indicates that our method outperforms existing STD baselines while being more efficient.
- Abstract(参考訳): Spoken term detection (STD) は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存し、その実用性を制限する。
これらの課題に対処するために、音声を個別に話者に依存しない意味トークンに符号化する新しい手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
我々のアプローチは、同じ用語の様々な発話にまたがる一貫したトークン列を生成することに焦点を当てている。
また,Mambaエンコーダ内の双方向状態空間モデリングを提案し,個別トークンにさらに符号化されたコンテキストフレームレベルの特徴を学習する。
分析の結果,我々の音声トークンは既存のトークン化器よりも話者の不均一性が強く,STD処理に適していることが判明した。
LibriSpeech と TIMIT データベースの実証評価により,提案手法は既存のSTD ベースラインより優れ,効率がよいことを示す。
関連論文リスト
- STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment [19.48653924804823]
大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。
しかし、LLMベースのTSモデルは、生成した出力が繰り返し単語、欠落した単語、不一致した音声を含むことができるため、堅牢ではない。
エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。
論文 参考訳(メタデータ) (2024-06-25T22:18:52Z) - DASB -- Discrete Audio and Speech Benchmark [12.02056212008393]
我々は、様々なタスクで離散オーディオトークンをベンチマークするためのリーダーボードである、離散オーディオおよび音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現の間のパフォーマンスのギャップは依然として大きい。
論文 参考訳(メタデータ) (2024-06-20T13:23:27Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - AlloST: Low-resource Speech Translation without Source Transcription [17.53382405899421]
言語に依存しないユニバーサル電話認識機能を利用する学習フレームワークを提案する。
このフレームワークは注意に基づくシーケンス・トゥ・シークエンスモデルに基づいている。
スペイン英語とタイギ・マンダリンのドラマ『コーポラ』で行った実験では、本手法がコンフォーメータベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-01T05:30:18Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。