論文の概要: Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction
- arxiv url: http://arxiv.org/abs/2503.08798v1
- Date: Tue, 11 Mar 2025 18:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:38:11.785217
- Title: Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction
- Title(参考訳): 文脈音声抽出:ターゲット音声抽出のための暗黙のキューとしてテキスト履歴を活用する
- Authors: Minsu Kim, Rodrigo Mira, Honglie Chen, Stavros Petridis, Maja Pantic,
- Abstract要約: 本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。
対象の音声を抽出するためには、テキストの文脈にのみ依存する。
3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
- 参考スコア(独自算出の注目度): 50.630431647192054
- License:
- Abstract: In this paper, we investigate a novel approach for Target Speech Extraction (TSE), which relies solely on textual context to extract the target speech. We refer to this task as Contextual Speech Extraction (CSE). Unlike traditional TSE methods that rely on pre-recorded enrollment utterances, video of the target speaker's face, spatial information, or other explicit cues to identify the target stream, our proposed method requires only a few turns of previous dialogue (or monologue) history. This approach is naturally feasible in mobile messaging environments where voice recordings are typically preceded by textual dialogue that can be leveraged implicitly. We present three CSE models and analyze their performances on three datasets. Through our experiments, we demonstrate that even when the model relies purely on dialogue history, it can achieve over 90 % accuracy in identifying the correct target stream with only two previous dialogue turns. Furthermore, we show that by leveraging both textual context and enrollment utterances as cues during training, we further enhance our model's flexibility and effectiveness, allowing us to use either cue during inference, or combine both for improved performance. Samples and code available on https://miraodasilva.github.io/cse-project-page .
- Abstract(参考訳): 本稿では,ターゲット音声抽出(TSE)の新たなアプローチについて検討する。
本稿では,この課題を文脈音声抽出(CSE)と呼ぶ。
提案手法は,事前記録された音声,対象話者の顔の映像,空間情報,あるいはターゲットストリームを特定するための明示的な手がかりに依存する従来のTSE手法とは異なり,過去の対話(あるいはモノローグ)履歴のほんの数回しか必要としない。
このアプローチは、音声録音が典型的に暗黙的に活用できるテキスト対話によって優先されるモバイルメッセージング環境において、自然に実現可能である。
3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
実験により、モデルが純粋に対話履歴に依存している場合でも、適切なターゲットストリームを2つの前の対話旋回のみで識別する精度を90%以上達成できることを実証した。
さらに、トレーニング中にテキストコンテキストと入力発話の両方をキューとして活用することにより、モデルの柔軟性と有効性をさらに向上し、推論時にキューを使用できるか、パフォーマンス改善のために両方を組み合わせることができることを示す。
サンプルとコードはhttps://miraodasilva.github.io/cse-project-page で公開されている。
関連論文リスト
- LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。
本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文 参考訳(メタデータ) (2024-09-05T16:57:39Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - ESSumm: Extractive Speech Summarization from Untranscribed Meeting [7.309214379395552]
本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。
市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
論文 参考訳(メタデータ) (2022-09-14T20:13:15Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。