論文の概要: Relational Proxy Loss for Audio-Text based Keyword Spotting
- arxiv url: http://arxiv.org/abs/2406.05314v1
- Date: Sat, 8 Jun 2024 01:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 20:24:20.093889
- Title: Relational Proxy Loss for Audio-Text based Keyword Spotting
- Title(参考訳): 音声テキストに基づくキーワードスポッティングにおける関係的プロキシ損失
- Authors: Youngmoon Jung, Seungjin Lee, Joon-Young Yang, Jaeyoung Roh, Chang Woo Han, Hoon-Young Cho,
- Abstract要約: 本研究の目的は, 構造的音響埋め込みとテキスト埋め込みの活用による既存手法の改善である。
RPLを組み込むことで,ウォールストリートジャーナル(WSJ)コーパスの性能向上を実証した。
- 参考スコア(独自算出の注目度): 8.932603220365793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been an increasing focus on user convenience, leading to increased interest in text-based keyword enrollment systems for keyword spotting (KWS). Since the system utilizes text input during the enrollment phase and audio input during actual usage, we call this task audio-text based KWS. To enable this task, both acoustic and text encoders are typically trained using deep metric learning loss functions, such as triplet- and proxy-based losses. This study aims to improve existing methods by leveraging the structural relations within acoustic embeddings and within text embeddings. Unlike previous studies that only compare acoustic and text embeddings on a point-to-point basis, our approach focuses on the relational structures within the embedding space by introducing the concept of Relational Proxy Loss (RPL). By incorporating RPL, we demonstrated improved performance on the Wall Street Journal (WSJ) corpus.
- Abstract(参考訳): 近年,キーワードスポッティング (KWS) のためのテキストベースのキーワード登録システムへの関心が高まっている。
本システムでは,登録期間中のテキスト入力と実際の使用時の音声入力を利用するので,このタスクを音声テキストベースのKWSと呼ぶ。
このタスクを実現するために、音響エンコーダとテキストエンコーダは、典型的には三重項やプロキシベースの損失のような深度学習損失関数を用いて訓練される。
本研究の目的は,音の埋め込みやテキスト埋め込みにおける構造的関係を活用することで,既存の手法を改善することである。
音声とテキストの埋め込みをポイント・ツー・ポイントで比較する従来の研究とは異なり,本研究では,RPL(Relational Proxy Loss)の概念を導入して,埋め込み空間内の関係構造に着目した。
RPLを組み込むことで,ウォールストリートジャーナル(WSJ)コーパスの性能向上を実証した。
関連論文リスト
- Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting [6.856101216726412]
本稿では,テキストベースのキーワード入力によるオープン語彙キーワードスポッティング(KWS)のストリーミング手法を提案する。
提案手法は,各入力フレームに対して,コネクショニスト時間分類(CTC)を用いて最適なアライメント終端を求める。
次に、フレームレベルの音響埋め込み(AE)を集約して、ターゲットのキーワードテキストのテキスト埋め込み(TE)と整合する高レベル(文字、単語、フレーズ)のAEを得る。
論文 参考訳(メタデータ) (2024-06-12T06:44:40Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting [23.627625026135505]
本稿では,ユーザ定義キーワードスポッティング手法を提案する。
提案手法は,入力クエリをテキストキーワードシーケンスと比較する。
本稿ではキーワードスポッティングモデルを効率的にトレーニングするためのLibriPhraseデータセットを紹介する。
論文 参考訳(メタデータ) (2022-06-30T16:40:31Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Phoneme-aware and Channel-wise Attentive Learning for Text
DependentSpeaker Verification [21.826585075806573]
本稿では,テキスト依存型話者検証(SV)のための音素認識型マルチタスク学習ネットワークとチャネルワイド学習戦略を提案する。
提案システムはテキスト依存型SVの優れた結果を得る。
論文 参考訳(メタデータ) (2021-06-25T09:11:18Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。