論文の概要: Typing to Listen at the Cocktail Party: Text-Guided Target Speaker
Extraction
- arxiv url: http://arxiv.org/abs/2310.07284v3
- Date: Sun, 15 Oct 2023 03:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 10:26:44.084881
- Title: Typing to Listen at the Cocktail Party: Text-Guided Target Speaker
Extraction
- Title(参考訳): コークテールパーティーで聴くタイピング:テキスト誘導型ターゲット話者抽出
- Authors: Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan
- Abstract要約: 本研究では,既存の話者抽出モデルの実現可能性,制御性,性能を高めるために,自然言語記述の統合について検討する。
本稿では,LLM-TSE というモデルを提案する。LLM-TSE は大きな言語モデル (LLM) を用いて,ユーザの入力入力から有用な意味的手がかりを抽出する。
実験の結果,テキストベースのキューのみを表示する場合の競合性能,タスクセレクタとして入力テキストを使用することの有効性,およびテキストベースのキューと事前登録されたキューを組み合わせる場合の新たな最先端性を示す。
- 参考スコア(独自算出の注目度): 39.985710814952625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans possess an extraordinary ability to selectively focus on the sound
source of interest amidst complex acoustic environments, commonly referred to
as cocktail party scenarios. In an attempt to replicate this remarkable
auditory attention capability in machines, target speaker extraction (TSE)
models have been developed. These models leverage the pre-registered cues of
the target speaker to extract the sound source of interest. However, the
effectiveness of these models is hindered in real-world scenarios due to the
unreliable or even absence of pre-registered cues. To address this limitation,
this study investigates the integration of natural language description to
enhance the feasibility, controllability, and performance of existing TSE
models. Specifically, we propose a model named LLM-TSE, wherein a large
language model (LLM) extracts useful semantic cues from the user's typed text
input. These cues can serve as independent extraction cues, task selectors to
control the TSE process or complement the pre-registered cues. Our experimental
results demonstrate competitive performance when only text-based cues are
presented, the effectiveness of using input text as a task selector, and a new
state-of-the-art when combining text-based cues with pre-registered cues. To
our knowledge, this is the first study to successfully incorporate LLMs to
guide target speaker extraction, which can be a cornerstone for cocktail party
problem research.
- Abstract(参考訳): 人間は複雑な音響環境の中で、特にカクテルパーティーのシナリオと呼ばれる音の源に選択的に焦点を合わせる能力を持っている。
この顕著な聴覚的注意力を機械に再現する試みとして、ターゲット話者抽出(TSE)モデルが開発された。
これらのモデルは、対象話者の予め登録された手がかりを利用して、興味のある音源を抽出する。
しかし、これらのモデルの有効性は、信頼できない、あるいは登録済みのキューが存在しないために、現実のシナリオでは妨げられる。
この制限に対処するため,既存のTSEモデルの実現可能性,制御性,性能を高めるために,自然言語記述の統合について検討した。
具体的には,大規模言語モデル(llm)がユーザの型付きテキスト入力から有用な意味的手がかりを抽出するllm-tseモデルを提案する。
これらのキューは独立した抽出キュー、TSEプロセスを制御するタスクセレクタ、または登録済みのキューを補完する。
本研究は,テキストベースの手がかりのみを提示する場合,入力テキストをタスクセレクタとして使用することの有効性,テキストベースのキューと事前登録した手がかりを組み合わせる際の新たな最先端技術,といった競合性能を示す。
我々の知る限り、これは目標話者抽出を誘導するためにLSMをうまく組み込んだ最初の研究であり、これはカクテルパーティー問題研究の基盤となる可能性がある。
関連論文リスト
- SIG: Speaker Identification in Literature via Prompt-Based Generation [13.042070464592374]
本稿では,設計したプロンプトテンプレートに基づいてタスクと引用入力を言語化する生成手法を提案する。
予測はモデルによって直接生成されるか、各話者候補の最も高い生成確率で決定される。
我々は,このタスクの最大のデータセットであるPDNCにおいて,クロスドメイン評価とドメイン内評価の両方を行う。
論文 参考訳(メタデータ) (2023-12-22T10:29:18Z) - Furnishing Sound Event Detection with Language Model Abilities [11.435984426303419]
本稿では,音のイベント分類と時間的位置を求めるために,音声特徴とテキスト特徴を整列させるエレガントな手法を提案する。
フレームワークは、アコースティックエンコーダと、テキストとオーディオの対応する表現を整列するコントラストモジュールと、分離された言語デコーダで構成される。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。