Fugu-MT 論文翻訳(概要): LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models

論文の概要: LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models

arxiv url: http://arxiv.org/abs/2504.07402v2
Date: Fri, 06 Jun 2025 02:00:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:42.932846
Title: LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models
Title（参考訳）: LauraTSE: 自動回帰デコーダ専用言語モデルを用いた話者抽出
Authors: Beilong Tang, Bang Zeng, Ming Li,
Abstract要約: LauraTSEは、ターゲット音声の離散表現の初期層を生成する、小規模の自動回帰デコーダのみの言語モデルを採用している。一段階エンコーダのみの言語モデルは、混合と参照音声の両方からの情報を統合することにより、完全な表現を再構築する。
参考スコア（独自算出の注目度）: 5.187669487527287
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose LauraTSE, an Auto-Regressive Decoder-Only Language Model for Target Speaker Extraction built upon the LauraGPT backbone. LauraTSE employs a small-scale auto-regressive decoder-only language model that generates the initial layers of the target speech's discrete codec representations from the continuous embeddings of both the mixture and reference speech. These outputs serve as coarse-grained predictions. To refine them, a one-step encoder-only language model reconstructs the full codec representation by integrating information from both the mixture and the reference speech, adding fine-grained details. Our approach achieves superior or comparable performance to existing TSE models. Additionally, we conduct ablation studies to investigate the data scalability and the contribution of the encoder-only model.
Abstract（参考訳）: 我々はLauraGPTのバックボーン上に構築されたターゲット話者抽出のための自動回帰デコーダオンリー言語モデルであるLauraTSEを提案する。 LauraTSEは、混合音声と参照音声の両方の連続埋め込みからターゲット音声の離散コーデック表現の初期層を生成する、小規模の自動回帰デコーダのみの言語モデルを採用している。これらの出力は粗い粒度の予測として機能する。これを改善するため、ワンステップエンコーダのみの言語モデルでは、混合と参照音声の両方からの情報を統合して全コーデック表現を再構築し、細かな詳細を付加する。提案手法は既存のTSEモデルよりも優れた,あるいは同等のパフォーマンスを実現する。さらに、エンコーダのみのモデルによるデータのスケーラビリティと寄与について、アブレーション研究を行う。

関連論文リスト

Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-03T14:42:49Z)
CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。話者の類似度は低く、プロソディの自然度は低い。本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文参考訳（メタデータ） (2024-06-12T15:42:21Z)
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文参考訳（メタデータ） (2024-02-20T02:04:38Z)
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文参考訳（メタデータ） (2024-01-08T16:37:45Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文参考訳（メタデータ） (2023-05-25T14:39:47Z)
A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。 LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文参考訳（メタデータ） (2023-05-18T09:50:47Z)
Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文参考訳（メタデータ） (2023-04-08T15:44:29Z)
Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文参考訳（メタデータ） (2022-11-29T09:28:05Z)
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文参考訳（メタデータ） (2022-11-05T04:03:55Z)
Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-06-09T12:45:29Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。 C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文参考訳（メタデータ） (2021-09-02T09:10:39Z)
Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文参考訳（メタデータ） (2021-08-31T19:39:55Z)
Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文参考訳（メタデータ） (2021-01-17T16:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。