Fugu-MT 論文翻訳(概要): Learning To Detect Keyword Parts And Whole By Smoothed Max Pooling

論文の概要: Learning To Detect Keyword Parts And Whole By Smoothed Max Pooling

arxiv url: http://arxiv.org/abs/2001.09246v1
Date: Sat, 25 Jan 2020 01:19:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-07 00:15:45.934736
Title: Learning To Detect Keyword Parts And Whole By Smoothed Max Pooling
Title（参考訳）: Smoothed Max Poolingでキーワードと全体を検出する学習
Authors: Hyun-Jin Park, Patrick Violette, Niranjan Subrahmanya
Abstract要約: 最大プール損失のスムーズ化とそのキーワードスポッティングシステムへの応用を提案する。提案手法は、エンコーダ(キーワード部分を検出するために)とデコーダ(キーワード全体を検出するために)を半教師付きで共同で訓練する。提案した新たな損失関数により,LVCSRのフレームレベルラベルに依存することなく,キーワードの一部と全体を検出するモデルのトレーニングが可能になる。
参考スコア（独自算出の注目度）: 9.927306160740974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose smoothed max pooling loss and its application to keyword spotting systems. The proposed approach jointly trains an encoder (to detect keyword parts) and a decoder (to detect whole keyword) in a semi-supervised manner. The proposed new loss function allows training a model to detect parts and whole of a keyword, without strictly depending on frame-level labeling from LVCSR (Large vocabulary continuous speech recognition), making further optimization possible. The proposed system outperforms the baseline keyword spotting model in [1] due to increased optimizability. Further, it can be more easily adapted for on-device learning applications due to reduced dependency on LVCSR.
Abstract（参考訳）: 最大プール損失のスムーズ化とそのキーワードスポッティングシステムへの応用を提案する。提案手法は、符号化器(キーワード部分を検出する)とデコーダ(キーワード全体を検出する)を半教師付きで共同で訓練する。提案した損失関数により,LVCSR(Large vocabulary continuous speech recognition)のフレームレベルラベルに厳密に依存することなく,キーワードの一部と全体を検出するモデルのトレーニングが可能になる。提案システムは,最適化性の向上により,[1]のベースラインキーワードスポッティングモデルより優れている。さらに、LVCSRへの依存度が低いため、デバイス上での学習アプリケーションにも容易に適応できる。

関連論文リスト

Enhancing Few-shot Keyword Spotting Performance through Pre-Trained Self-supervised Speech Models [3.25590215530292]
キーワードスポッティングは、バッテリー駆動エッジデバイスに対するハンズフリーインタラクションを可能にする上で重要な役割を果たす。本研究では,自己指導型学習モデルを用いて,ロバストな特徴抽出,次元縮小,知識蒸留を行う訓練手法を提案する。提案手法は,Multilingual Spoken Words Corpus (MSWC) とGoogle Speech Commands (GSC) データセットの英語部分に対して評価を行った。
論文参考訳（メタデータ） (2025-06-21T11:39:11Z)
Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection [0.0]
本稿では,ASRエンコーダにノイズ分類ヘッドを組み込んだマルチタスク学習手法を提案する。提案手法は, ノイズの多い環境に対するモデルの堅牢性を高め, 誤報を著しく低減し, 全体的なコール・フォー・ヘルプ性能を向上する。
論文参考訳（メタデータ） (2025-01-20T18:01:42Z)
MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。 MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文参考訳（メタデータ） (2024-08-27T04:45:53Z)
OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文参考訳（メタデータ） (2024-07-15T12:15:27Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文参考訳（メタデータ） (2023-10-08T07:42:41Z)
Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-09-13T13:49:42Z)
Few-Shot Open-Set Learning for On-Device Customization of KeyWord Spotting Systems [41.24728444810133]
本稿では, 深層特徴エンコーダとプロトタイプベース分類器を組み合わせることで, オープンセットKWS分類のための数ショット学習手法について検討する。 Google Speech Commandデータセットの10クラスのユーザ定義キーワードを用いて、10ショットシナリオで最大76%の精度を報告した。
論文参考訳（メタデータ） (2023-06-03T17:10:33Z)
Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文参考訳（メタデータ） (2023-03-23T17:59:53Z)
Dummy Prototypical Networks for Few-Shot Open-Set Keyword Spotting [6.4423565043274795]
スプリットGSCという新しいベンチマーク設定で、数ショットのオープンセットキーワードスポッティングに取り組む。オープンセットをよりよく検出し,Dummy Prototypeal Networks(D-ProtoNets)というシンプルで強力なアプローチを導入するために,メトリック学習に基づくエピソード有名なダミープロトタイプを提案する。また,本手法を標準ベンチマーク,miniImageNet,D-ProtoNetsで検証し,FSOSRにおける最先端のオープンセット検出率を示す。
論文参考訳（メタデータ） (2022-06-28T01:56:24Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。深部自己注意を伴う識別的近傍分類を提示する。自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文参考訳（メタデータ） (2020-10-25T00:39:32Z)
Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文参考訳（メタデータ） (2020-02-25T13:27:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。