論文の概要: Typing to Listen at the Cocktail Party: Text-Guided Target Speaker
Extraction
- arxiv url: http://arxiv.org/abs/2310.07284v2
- Date: Thu, 12 Oct 2023 01:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:23:01.663900
- Title: Typing to Listen at the Cocktail Party: Text-Guided Target Speaker
Extraction
- Title(参考訳): コークテールパーティーで聴くタイピング:テキスト誘導型ターゲット話者抽出
- Authors: Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan
- Abstract要約: 本研究では,既存の話者抽出モデルの実現可能性,制御性,性能を高めるために,自然言語記述の統合について検討する。
本稿では,LLM-TSEというモデルを提案する。LLM-TSEは,ユーザが入力したテキストから有用な意味的手がかりを抽出する大言語モデル(LLM)である。
実験の結果,テキストベースのキューのみを表示する場合の競合性能,タスクセレクタとして入力テキストを使用することの有効性,およびテキストベースのキューと事前登録されたキューを組み合わせる場合の新たな最先端性を示す。
- 参考スコア(独自算出の注目度): 39.985710814952625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans possess an extraordinary ability to selectively focus on the sound
source of interest amidst complex acoustic environments, commonly referred to
as cocktail party scenarios. In an attempt to replicate this remarkable
auditory attention capability in machines, target speaker extraction (TSE)
models have been developed. These models leverage the pre-registered cues of
the target speaker to extract the sound source of interest. However, the
effectiveness of these models is hindered in real-world scenarios due to the
unreliable or even absence of pre-registered cues. To address this limitation,
this study investigates the integration of natural language description to
enhance the feasibility, controllability, and performance of existing TSE
models. Specifically, we propose a model named LLM-TSE, wherein a large
language model (LLM) to extract useful semantic cues from the user's typed text
input. These cues can serve as independent extraction cues, task selectors to
control the TSE process, or complement the pre-registered cues. Our
experimental results demonstrate competitive performance when only text-based
cues are presented, the effectiveness of using input text as a task selector,
and a new state-of-the-art when combining text-based cues with pre-registered
cues. To our knowledge, this is the first study to successfully incorporate
LLMs to guide target speaker extraction, which can be a cornerstone for
cocktail party problem research.
- Abstract(参考訳): 人間は複雑な音響環境の中で、特にカクテルパーティーのシナリオと呼ばれる音の源に選択的に焦点を合わせる能力を持っている。
この顕著な聴覚的注意力を機械に再現する試みとして、ターゲット話者抽出(TSE)モデルが開発された。
これらのモデルは、対象話者の予め登録された手がかりを利用して、興味のある音源を抽出する。
しかし、これらのモデルの有効性は、信頼できない、あるいは登録済みのキューが存在しないために、現実のシナリオでは妨げられる。
この制限に対処するため,既存のTSEモデルの実現可能性,制御性,性能を高めるために,自然言語記述の統合について検討した。
具体的には,LLM-TSEというモデルを提案し,ユーザが入力したテキストから有用な意味的手がかりを抽出する大規模言語モデル(LLM)を提案する。
これらのキューは、独立した抽出キュー、TSEプロセスを制御するタスクセレクタ、または登録済みキューを補完する。
本研究は,テキストベースの手がかりのみを提示する場合,入力テキストをタスクセレクタとして使用することの有効性,テキストベースのキューと事前登録した手がかりを組み合わせる際の新たな最先端技術,といった競合性能を示す。
我々の知る限り、これは目標話者抽出を誘導するためにLSMをうまく組み込んだ最初の研究であり、これはカクテルパーティー問題研究の基盤となる可能性がある。
関連論文リスト
- Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。
テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文 参考訳(メタデータ) (2024-10-04T04:59:50Z) - SIG: Speaker Identification in Literature via Prompt-Based Generation [13.042070464592374]
本稿では,設計したプロンプトテンプレートに基づいてタスクと引用入力を言語化する生成手法を提案する。
予測はモデルによって直接生成されるか、各話者候補の最も高い生成確率で決定される。
我々は,このタスクの最大のデータセットであるPDNCにおいて,クロスドメイン評価とドメイン内評価の両方を行う。
論文 参考訳(メタデータ) (2023-12-22T10:29:18Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。
テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。
フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文 参考訳(メタデータ) (2023-07-21T09:30:46Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。