Fugu-MT 論文翻訳(概要): Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction

論文の概要: Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction

arxiv url: http://arxiv.org/abs/2310.07284v3
Date: Sun, 15 Oct 2023 03:58:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 10:26:44.084881
Title: Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction
Title（参考訳）: コークテールパーティーで聴くタイピング:テキスト誘導型ターゲット話者抽出
Authors: Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan
Abstract要約: 本研究では,既存の話者抽出モデルの実現可能性,制御性,性能を高めるために,自然言語記述の統合について検討する。本稿では,LLM-TSE というモデルを提案する。LLM-TSE は大きな言語モデル (LLM) を用いて,ユーザの入力入力から有用な意味的手がかりを抽出する。実験の結果,テキストベースのキューのみを表示する場合の競合性能,タスクセレクタとして入力テキストを使用することの有効性,およびテキストベースのキューと事前登録されたキューを組み合わせる場合の新たな最先端性を示す。
参考スコア（独自算出の注目度）: 39.985710814952625
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans possess an extraordinary ability to selectively focus on the sound source of interest amidst complex acoustic environments, commonly referred to as cocktail party scenarios. In an attempt to replicate this remarkable auditory attention capability in machines, target speaker extraction (TSE) models have been developed. These models leverage the pre-registered cues of the target speaker to extract the sound source of interest. However, the effectiveness of these models is hindered in real-world scenarios due to the unreliable or even absence of pre-registered cues. To address this limitation, this study investigates the integration of natural language description to enhance the feasibility, controllability, and performance of existing TSE models. Specifically, we propose a model named LLM-TSE, wherein a large language model (LLM) extracts useful semantic cues from the user's typed text input. These cues can serve as independent extraction cues, task selectors to control the TSE process or complement the pre-registered cues. Our experimental results demonstrate competitive performance when only text-based cues are presented, the effectiveness of using input text as a task selector, and a new state-of-the-art when combining text-based cues with pre-registered cues. To our knowledge, this is the first study to successfully incorporate LLMs to guide target speaker extraction, which can be a cornerstone for cocktail party problem research.
Abstract（参考訳）: 人間は複雑な音響環境の中で、特にカクテルパーティーのシナリオと呼ばれる音の源に選択的に焦点を合わせる能力を持っている。この顕著な聴覚的注意力を機械に再現する試みとして、ターゲット話者抽出(TSE)モデルが開発された。これらのモデルは、対象話者の予め登録された手がかりを利用して、興味のある音源を抽出する。しかし、これらのモデルの有効性は、信頼できない、あるいは登録済みのキューが存在しないために、現実のシナリオでは妨げられる。この制限に対処するため,既存のTSEモデルの実現可能性,制御性,性能を高めるために,自然言語記述の統合について検討した。具体的には,大規模言語モデル(llm)がユーザの型付きテキスト入力から有用な意味的手がかりを抽出するllm-tseモデルを提案する。これらのキューは独立した抽出キュー、TSEプロセスを制御するタスクセレクタ、または登録済みのキューを補完する。本研究は,テキストベースの手がかりのみを提示する場合,入力テキストをタスクセレクタとして使用することの有効性,テキストベースのキューと事前登録した手がかりを組み合わせる際の新たな最先端技術,といった競合性能を示す。我々の知る限り、これは目標話者抽出を誘導するためにLSMをうまく組み込んだ最初の研究であり、これはカクテルパーティー問題研究の基盤となる可能性がある。

関連論文リスト

TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文参考訳（メタデータ） (2025-06-13T03:19:47Z)
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline [29.85417427778784]
SoloSpeechは、圧縮、抽出、再構築、修正プロセスを統合するカスケード生成パイプラインである。ターゲット音声抽出および音声分離タスクにおける最先端の知性および品質を実現する。
論文参考訳（メタデータ） (2025-05-25T21:00:48Z)
Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction [50.630431647192054]
本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。対象の音声を抽出するためには、テキストの文脈にのみ依存する。 3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
論文参考訳（メタデータ） (2025-03-11T18:26:10Z)
Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文参考訳（メタデータ） (2024-10-04T04:59:50Z)
SIG: Speaker Identification in Literature via Prompt-Based Generation [13.042070464592374]
本稿では,設計したプロンプトテンプレートに基づいてタスクと引用入力を言語化する生成手法を提案する。予測はモデルによって直接生成されるか、各話者候補の最も高い生成確率で決定される。我々は,このタスクの最大のデータセットであるPDNCにおいて,クロスドメイン評価とドメイン内評価の両方を行う。
論文参考訳（メタデータ） (2023-12-22T10:29:18Z)
Learning Speech Representation From Contrastive Token-Acoustic Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文参考訳（メタデータ） (2023-09-01T12:35:43Z)
Topic Identification For Spontaneous Speech: Enriching Audio Features With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文参考訳（メタデータ） (2023-07-21T09:30:46Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文参考訳（メタデータ） (2021-10-20T00:59:36Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)
Speak or Chat with Me: End-to-End Spoken Language Understanding System with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文参考訳（メタデータ） (2021-04-07T20:48:08Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。 ERCタスクの教師付きデータは限られている。教師なし会話データを活用する新しい手法を提案する。
論文参考訳（メタデータ） (2020-10-02T13:28:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。