論文の概要: LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models
- arxiv url: http://arxiv.org/abs/2504.07402v1
- Date: Thu, 10 Apr 2025 02:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:41.250121
- Title: LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models
- Title(参考訳): LauraTSE: 自動回帰デコーダ専用言語モデルを用いた話者抽出
- Authors: Beilong Tang, Bang Zeng, Ming Li,
- Abstract要約: LauraTSEは、ターゲット話者抽出(TSE)のための自動回帰デコーダ専用言語モデルである
小規模な自動回帰デコーダのみの言語モデルを採用しており、混合語と参照語の両方の連続表現を取り入れている。
一段階エンコーダのみの言語モデルは、混合情報と参照情報の両方を用いて予測された埋め込みの和を再構成する。
- 参考スコア(独自算出の注目度): 5.187669487527287
- License:
- Abstract: We propose LauraTSE, an Auto-Regressive Decoder-Only Language Model for Target Speaker Extraction (TSE) based on the LauraGPT backbone. It employs a small-scale auto-regressive decoder-only language model which takes the continuous representations for both the mixture and the reference speeches and produces the first few layers of the target speech's discrete codec representations. In addition, a one-step encoder-only language model reconstructs the sum of the predicted codec embeddings using both the mixture and the reference information. Our approach achieves superior or comparable performance to existing generative and discriminative TSE models. To the best of our knowledge, LauraTSE is the first single-task TSE model to leverage an auto-regressive decoder-only language model as the backbone.
- Abstract(参考訳): 本稿では,LauraGPTのバックボーンをベースとした自動回帰デコーダオンリー言語モデルであるLauraTSEを提案する。
小規模な自己回帰型デコーダのみの言語モデルを用いて、混合と参照音声の両方の連続表現を取り込み、ターゲット音声の離散コーデック表現の最初の数層を生成する。
さらに、1段階エンコーダのみの言語モデルでは、混合情報と参照情報の両方を用いて予測されたコーデック埋め込みの和を再構成する。
提案手法は,既存のTSEモデルと同等あるいは同等の性能を示す。
我々の知る限りでは、LauraTSEは自動回帰デコーダのみの言語モデルをバックボーンとして活用する最初のシングルタスクTSEモデルである。
関連論文リスト
- OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。