論文の概要: Multi-Sample Dynamic Time Warping for Few-Shot Keyword Spotting
- arxiv url: http://arxiv.org/abs/2404.14903v2
- Date: Wed, 05 Jun 2024 07:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 01:58:19.501636
- Title: Multi-Sample Dynamic Time Warping for Few-Shot Keyword Spotting
- Title(参考訳): Few-Shotキーワードスポッティングのためのマルチサンプル動的時間ワープ
- Authors: Kevin Wilkinghoff, Alessia Cornaggia-Urrigshardt,
- Abstract要約: na"ive approach to detect keywords in a target sequence were consisting all samples of all class using sub-sequence dynamic time warping。
あるいは、クラス毎に単一のFr'echet平均しかクエリできないため、処理時間が短縮される。
本研究では,全てのクエリサンプルの変動性を含むクラス固有のコストテンソルを計算するために,マルチサンプル動的時間ワープを提案する。
- 参考スコア(独自算出の注目度): 0.3683202928838613
- License:
- Abstract: In multi-sample keyword spotting, each keyword class is represented by multiple spoken instances, called samples. A na\"ive approach to detect keywords in a target sequence consists of querying all samples of all classes using sub-sequence dynamic time warping. However, the resulting processing time increases linearly with respect to the number of samples belonging to each class. Alternatively, only a single Fr\'echet mean can be queried for each class, resulting in reduced processing time but usually also in worse detection performance as the variability of the query samples is not captured sufficiently well. In this work, multi-sample dynamic time warping is proposed to compute class-specific cost-tensors that include the variability of all query samples. To significantly reduce the computational complexity during inference, these cost tensors are converted to cost matrices before applying dynamic time warping. In experimental evaluations for few-shot keyword spotting, it is shown that this method yields a very similar performance as using all individual query samples as templates while having a runtime that is only slightly slower than when using Fr\'echet means.
- Abstract(参考訳): マルチサンプルキーワードスポッティングでは、各キーワードクラスはサンプルと呼ばれる複数の音声インスタンスによって表現される。
ターゲットシーケンス内のキーワードを検出する"na\"iveアプローチは、サブシーケンスの動的時間ワープを使用して、すべてのクラスのすべてのサンプルを問合せする。
しかし、結果として得られる処理時間は、各クラスに属するサンプルの数に対して線形に増加する。
あるいは、1つのFr'echet平均値のみを各クラスに対してクエリできるため、処理時間が短縮されるが、クエリサンプルの変数が十分に取得されていないため、通常、検出性能が低下する。
本研究では,全てのクエリサンプルの変動性を含むクラス固有のコストテンソルを計算するために,マルチサンプル動的時間ワープを提案する。
推論中の計算複雑性を大幅に低減するため、これらのコストテンソルは動的時間ワープを適用する前にコスト行列に変換される。
数ショットのキーワードスポッティングの実験評価では、Fr\echet が意味するよりもわずかに遅いランタイムを持ちながら、各クエリのサンプルをテンプレートとして使用するのと非常によく似た性能を示した。
関連論文リスト
- Dynamic Contrastive Learning for Time Series Representation [6.086030037869592]
時系列の教師なしコントラスト表現学習フレームワークDynaCLを提案する。
DynaCLは時系列から意味のあるクラスタにインスタンスを埋め込みます。
また、教師なしクラスタリングメトリクスの高得点は、下流タスクにおいて表現が有用であることを保証していないことも明らかにした。
論文 参考訳(メタデータ) (2024-10-20T15:20:24Z) - Motion Code: Robust Time series Classification and Forecasting via Sparse Variational Multi-Stochastic Processes Learning [3.2857981869020327]
本稿では,各時系列を連続的なプロセスのサンプル化として考える新しいフレームワークを提案する。
このような数学的モデルは、複数のタイムスタンプにまたがるデータ依存を明示的に捉え、ノイズから隠れた時間依存信号を検出する。
次に、割り当てられたベクトルに基づいて個々のダイナミクスのスパース近似を推測する最も情報性の高いタイムスタンプの抽象的概念を提案する。
論文 参考訳(メタデータ) (2024-02-21T19:10:08Z) - Compatible Transformer for Irregularly Sampled Multivariate Time Series [75.79309862085303]
本研究では,各サンプルに対して総合的な時間的相互作用特徴学習を実現するためのトランスフォーマーベースのエンコーダを提案する。
実世界の3つのデータセットについて広範な実験を行い、提案したCoFormerが既存の手法を大幅に上回っていることを検証した。
論文 参考訳(メタデータ) (2023-10-17T06:29:09Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Once-for-All Sequence Compression for Self-Supervised Speech Models [62.60723685118747]
自己教師型音声モデルのための一括圧縮フレームワークを提案する。
このフレームワークは様々なタスクで評価され、固定圧縮率の変種と比較して限界劣化を示す。
また、適応圧縮率学習についても検討し、グリッド探索を必要とせず、タスク固有の好ましいフレーム期間を選択する能力を示す。
論文 参考訳(メタデータ) (2022-11-04T09:19:13Z) - Mixed-Precision Neural Network Quantization via Learned Layer-wise
Importance [50.00102219630088]
混合精度量子化(MPQ)は各層に対して最適なビット幅を決定するのを難しくする。
本稿では,すべての指標を同時に取得できる共同学習手法を提案する。
例えば、ResNet18上のインデックスによるMPQ検索は、わずか0.06秒しかかからない。
論文 参考訳(メタデータ) (2022-03-16T03:23:50Z) - Single Image Object Counting and Localizing using Active-Learning [4.56877715768796]
単一画像シナリオにおける反復オブジェクトのカウントとローカライズのための新しい手法を提案する。
本手法は,少数のアクティブ・ラーニング・イテレーションにおいて,入力画像から注意深く収集したラベルの小さなセットに対してCNNを訓練する。
既存のユーザ支援カウント法と比較すると,ユーザマウスのクリック数,ランニングタイムの計測と位置決めの精度の観点から,能動的学習が最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2021-11-16T11:29:21Z) - On Model Calibration for Long-Tailed Object Detection and Instance
Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。
バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:57:20Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Dynamic Boundary Time Warping for Sub-sequence Matching with Few Examples [2.1134931620813533]
本稿では,短いシーケンスの集合に類似した,長い時間的シーケンスの断片を見つける新しい方法を提案する。
我々は,クエリの例から平均シーケンスを計算に頼らずに検索を行うアルゴリズムを最初に提案する。
論文 参考訳(メタデータ) (2020-10-27T17:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。