論文の概要: Personalizing Keyword Spotting with Speaker Information
- arxiv url: http://arxiv.org/abs/2311.03419v1
- Date: Mon, 6 Nov 2023 12:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:16:23.422562
- Title: Personalizing Keyword Spotting with Speaker Information
- Title(参考訳): 話者情報を用いたキーワードスポッティングのパーソナライズ
- Authors: Beltr\'an Labrador, Pai Zhu, Guanlong Zhao, Angelo Scorza Scarpati,
Quan Wang, Alicia Lozano-Diez, Alex Park, Ignacio L\'opez Moreno
- Abstract要約: キーワードスポッティングシステムは、様々なアクセントと年齢グループを持つ多様な人口に一般化するのに苦労することが多い。
特徴量線形変調(FiLM)を用いたキーワードスポッティングに話者情報を統合する新しい手法を提案する。
提案手法では,パラメータ数が1%増加し,レイテンシと計算コストが最小限に抑えられた。
- 参考スコア(独自算出の注目度): 11.4457776449367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword spotting systems often struggle to generalize to a diverse population
with various accents and age groups. To address this challenge, we propose a
novel approach that integrates speaker information into keyword spotting using
Feature-wise Linear Modulation (FiLM), a recent method for learning from
multiple sources of information. We explore both Text-Dependent and
Text-Independent speaker recognition systems to extract speaker information,
and we experiment on extracting this information from both the input audio and
pre-enrolled user audio. We evaluate our systems on a diverse dataset and
achieve a substantial improvement in keyword detection accuracy, particularly
among underrepresented speaker groups. Moreover, our proposed approach only
requires a small 1% increase in the number of parameters, with a minimum impact
on latency and computational cost, which makes it a practical solution for
real-world applications.
- Abstract(参考訳): キーワードスポッティングシステムは、様々なアクセントと年齢グループを持つ多様な人口に一般化するのに苦労することが多い。
この課題に対処するために,複数の情報源から学習する新しい手法であるFiLM(Feature-wise Linear Modulation)を用いて,話者情報をキーワードスポッティングに統合する手法を提案する。
テキスト依存型話者認識システムとテキスト依存型話者認識システムの両方を探索し、入力オーディオと事前登録されたユーザオーディオの両方からこれらの情報を抽出する実験を行った。
我々は,多種多様なデータセットを用いてシステム評価を行い,特に表現不足話者群においてキーワード検出精度を大幅に向上させる。
さらに,提案手法ではパラメータ数を1%増加させるだけで,レイテンシや計算コストに最小限の影響があるため,現実のアプリケーションでは実用的ソリューションとなる。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Multi-pass Training and Cross-information Fusion for Low-resource
End-to-end Accented Speech Recognition [12.323309756880581]
低リソースアクセント型音声認識は、現在のASR技術で直面する重要な課題の1つである。
本研究では,非アクセントと限定的なアクセント付きトレーニングデータから得られた音響情報を活用するために,Aformerと呼ばれるコンフォーマーベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-20T06:08:09Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。