論文の概要: Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction
- arxiv url: http://arxiv.org/abs/2310.07284v4
- Date: Mon, 07 Oct 2024 06:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:11:27.777958
- Title: Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction
- Title(参考訳): コークテールパーティーで聴くタイピング:テキスト誘導型ターゲット話者抽出
- Authors: Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan,
- Abstract要約: 人間は単一話者を複雑な音響環境から容易に隔離することができ、これは「カクテルパーティー効果」と呼ばれる。
従来のターゲット話者抽出アプローチはボイスプリントに依存しており、プライバシー上の懸念や、登録サンプルの品質と可用性に関する問題に直面している。
この研究は、LLM-TSEという新しいテキスト誘導型TSEパラダイムを導入している。
- 参考スコア(独自算出の注目度): 37.27069171640074
- License:
- Abstract: Humans can easily isolate a single speaker from a complex acoustic environment, a capability referred to as the "Cocktail Party Effect." However, replicating this ability has been a significant challenge in the field of target speaker extraction (TSE). Traditional TSE approaches predominantly rely on voiceprints, which raise privacy concerns and face issues related to the quality and availability of enrollment samples, as well as intra-speaker variability. To address these issues, this work introduces a novel text-guided TSE paradigm named LLM-TSE. In this paradigm, a state-of-the-art large language model, LLaMA 2, processes typed text input from users to extract semantic cues. We demonstrate that textual descriptions alone can effectively serve as cues for extraction, thus addressing privacy concerns and reducing dependency on voiceprints. Furthermore, our approach offers flexibility by allowing the user to specify the extraction or suppression of a speaker and enhances robustness against intra-speaker variability by incorporating context-dependent textual information. Experimental results show competitive performance with text-based cues alone and demonstrate the effectiveness of using text as a task selector. Additionally, they achieve a new state-of-the-art when combining text-based cues with pre-registered cues. This work represents the first integration of LLMs with TSE, potentially establishing a new benchmark in solving the cocktail party problem and expanding the scope of TSE applications by providing a versatile, privacy-conscious solution.
- Abstract(参考訳): 人間は単一話者を複雑な音響環境から容易に隔離することができ、これは「カクテルパーティー効果」と呼ばれる。
しかし、この能力を複製することは、ターゲット話者抽出(TSE)分野において大きな課題となっている。
従来のTSEアプローチは、主にボイスプリントに依存しており、プライバシの懸念や、登録サンプルの品質と可用性に関する問題、およびスピーカー内変動性に直面する。
これらの問題に対処するため、本研究ではLLM-TSEという新しいテキスト誘導型TSEパラダイムを導入する。
このパラダイムでは、最先端の大規模言語モデルであるLLaMA 2がユーザから入力された型付きテキストを処理し、セマンティックな手がかりを抽出する。
テキスト記述だけでは、抽出のための手がかりとして効果的に機能し、プライバシー上の懸念に対処し、音声プリントへの依存を減らすことができることを実証する。
さらに,提案手法は,話者の抽出や抑制をユーザが指定できるようにすることで柔軟性を提供し,文脈に依存したテキスト情報を組み込むことで,話者内変動に対する堅牢性を高める。
実験の結果、テキストベースのキューだけでの競合性能を示し、タスクセレクタとしてテキストを使用することの有効性を示した。
さらに、テキストベースのキューと事前登録されたキューを組み合わせることで、新たな最先端を実現する。
この研究は、TLMとTSEを初めて統合し、カクテルパーティの問題を解決し、TSEアプリケーションの範囲を広げる上で、汎用的でプライバシを重視したソリューションを提供することで、新たなベンチマークを確立する可能性がある。
関連論文リスト
- Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。
テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文 参考訳(メタデータ) (2024-10-04T04:59:50Z) - SIG: Speaker Identification in Literature via Prompt-Based Generation [13.042070464592374]
本稿では,設計したプロンプトテンプレートに基づいてタスクと引用入力を言語化する生成手法を提案する。
予測はモデルによって直接生成されるか、各話者候補の最も高い生成確率で決定される。
我々は,このタスクの最大のデータセットであるPDNCにおいて,クロスドメイン評価とドメイン内評価の両方を行う。
論文 参考訳(メタデータ) (2023-12-22T10:29:18Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。
テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。
フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文 参考訳(メタデータ) (2023-07-21T09:30:46Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。