論文の概要: Learning To Detect Keyword Parts And Whole By Smoothed Max Pooling
- arxiv url: http://arxiv.org/abs/2001.09246v1
- Date: Sat, 25 Jan 2020 01:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 00:15:45.934736
- Title: Learning To Detect Keyword Parts And Whole By Smoothed Max Pooling
- Title(参考訳): Smoothed Max Poolingでキーワードと全体を検出する学習
- Authors: Hyun-Jin Park, Patrick Violette, Niranjan Subrahmanya
- Abstract要約: 最大プール損失のスムーズ化とそのキーワードスポッティングシステムへの応用を提案する。
提案手法は、エンコーダ(キーワード部分を検出するために)とデコーダ(キーワード全体を検出するために)を半教師付きで共同で訓練する。
提案した新たな損失関数により,LVCSRのフレームレベルラベルに依存することなく,キーワードの一部と全体を検出するモデルのトレーニングが可能になる。
- 参考スコア(独自算出の注目度): 9.927306160740974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose smoothed max pooling loss and its application to keyword spotting
systems. The proposed approach jointly trains an encoder (to detect keyword
parts) and a decoder (to detect whole keyword) in a semi-supervised manner. The
proposed new loss function allows training a model to detect parts and whole of
a keyword, without strictly depending on frame-level labeling from LVCSR (Large
vocabulary continuous speech recognition), making further optimization
possible. The proposed system outperforms the baseline keyword spotting model
in [1] due to increased optimizability. Further, it can be more easily adapted
for on-device learning applications due to reduced dependency on LVCSR.
- Abstract(参考訳): 最大プール損失のスムーズ化とそのキーワードスポッティングシステムへの応用を提案する。
提案手法は、符号化器(キーワード部分を検出する)とデコーダ(キーワード全体を検出する)を半教師付きで共同で訓練する。
提案した損失関数により,LVCSR(Large vocabulary continuous speech recognition)のフレームレベルラベルに厳密に依存することなく,キーワードの一部と全体を検出するモデルのトレーニングが可能になる。
提案システムは,最適化性の向上により,[1]のベースラインキーワードスポッティングモデルより優れている。
さらに、LVCSRへの依存度が低いため、デバイス上での学習アプリケーションにも容易に適応できる。
関連論文リスト
- MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。
MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。
オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-15T12:15:27Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Few-Shot Open-Set Learning for On-Device Customization of KeyWord
Spotting Systems [41.24728444810133]
本稿では, 深層特徴エンコーダとプロトタイプベース分類器を組み合わせることで, オープンセットKWS分類のための数ショット学習手法について検討する。
Google Speech Commandデータセットの10クラスのユーザ定義キーワードを用いて、10ショットシナリオで最大76%の精度を報告した。
論文 参考訳(メタデータ) (2023-06-03T17:10:33Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Dummy Prototypical Networks for Few-Shot Open-Set Keyword Spotting [6.4423565043274795]
スプリットGSCという新しいベンチマーク設定で、数ショットのオープンセットキーワードスポッティングに取り組む。
オープンセットをよりよく検出し,Dummy Prototypeal Networks(D-ProtoNets)というシンプルで強力なアプローチを導入するために,メトリック学習に基づくエピソード有名なダミープロトタイプを提案する。
また,本手法を標準ベンチマーク,miniImageNet,D-ProtoNetsで検証し,FSOSRにおける最先端のオープンセット検出率を示す。
論文 参考訳(メタデータ) (2022-06-28T01:56:24Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。