論文の概要: Vocal Tract Length Warped Features for Spoken Keyword Spotting
- arxiv url: http://arxiv.org/abs/2501.03523v1
- Date: Tue, 07 Jan 2025 04:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:04.483496
- Title: Vocal Tract Length Warped Features for Spoken Keyword Spotting
- Title(参考訳): 音声単語スポッティングにおける声道長ワープの特徴
- Authors: Achintya kr. Sarkar, Priyanka Dwivedi, Zheng-Hua Tan,
- Abstract要約: 音声キーワードスポッティング(KWS)のための声道長(VTL)特徴を取り入れたいくつかの手法を提案する。
最初の方法、VTL非依存のKWSは、様々な歪み要因を持つVTL特徴を利用する単一のディープニューラルネットワーク(DNN)をトレーニングする。
第2の方法は、DNNに対するテスト発話(VTLワープなしで)の従来の特徴を評価する。
第3の方法であるVTL連結KWSは、KWSの高次元特徴を形成するためにVTL特徴を歪曲した。
- 参考スコア(独自算出の注目度): 11.362295176098067
- License:
- Abstract: In this paper, we propose several methods that incorporate vocal tract length (VTL) warped features for spoken keyword spotting (KWS). The first method, VTL-independent KWS, involves training a single deep neural network (DNN) that utilizes VTL features with various warping factors. During training, a specific VTL feature is randomly selected per epoch, allowing the exploration of VTL variations. During testing, the VTL features with different warping factors of a test utterance are scored against the DNN and combined with equal weight. In the second method scores the conventional features of a test utterance (without VTL warping) against the DNN. The third method, VTL-concatenation KWS, concatenates VTL warped features to form high-dimensional features for KWS. Evaluations carried out on the English Google Command dataset demonstrate that the proposed methods improve the accuracy of KWS.
- Abstract(参考訳): 本稿では,音声キーワードスポッティング(KWS)のための声道長(VTL)ワープ特徴を取り入れたいくつかの手法を提案する。
最初の方法、VTL非依存のKWSは、様々な歪み要因を持つVTL特徴を利用する単一のディープニューラルネットワーク(DNN)をトレーニングする。
トレーニング中、特定のVTL機能はエポック毎にランダムに選択され、VTLのバリエーションを探索することができる。
テスト中、テスト発話の歪み要因が異なるVTL特徴は、DNNに対してスコアされ、同じ重量で結合される。
第2の手法では、DNNに対するテスト発話(VTLワープなしで)の従来の特徴を評価する。
第3の方法であるVTL連結KWSは、VTLが歪んだ特徴を連結し、KWSの高次元特徴を形成する。
英語のGoogle Commandデータセットで行った評価では,提案手法がKWSの精度を向上させることが示されている。
関連論文リスト
- Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。
TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文 参考訳(メタデータ) (2024-07-22T17:59:19Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Data Generation Using Pass-phrase-dependent Deep Auto-encoders for
Text-Dependent Speaker Verification [25.318439244029094]
テキスト依存型話者検証(TD-SV)のための拡張データを作成するためのパスフレーズ特異的ディープニューラルネットワーク(PP-DNN)ベースのオートエンコーダを訓練する新しい手法を提案する。
各PP-DNNオートエンコーダは、ターゲット登録セットで利用可能な特定のパスフレーズの発声を用いて訓練される。
短い発話を用いたTD-SVのためのRedDots Challenge 2016データベース上で実験が行われた。
論文 参考訳(メタデータ) (2021-02-03T14:06:29Z) - Vocal Tract Length Perturbation for Text-Dependent Speaker Verification
with Autoregressive Prediction Coding [0.0]
テキスト依存型話者検証(TD-SV)のための声道長(VTL)摂動法を提案する。
各VTL因子に対して一連のTD-SVシステムを訓練し、最終的な決定のためにスコアレベル融合を適用する。
論文 参考訳(メタデータ) (2020-11-25T06:11:06Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。