論文の概要: Learning Efficient Representations for Keyword Spotting with Triplet
Loss
- arxiv url: http://arxiv.org/abs/2101.04792v2
- Date: Sat, 30 Jan 2021 16:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:47:51.784163
- Title: Learning Efficient Representations for Keyword Spotting with Triplet
Loss
- Title(参考訳): 三重項損失を伴うキーワードスポッティングのための学習効率のよい表現
- Authors: Roman Vygon, Nikolay Mikhaylovskiy
- Abstract要約: 3重項損失に基づく埋め込みと分類のためのkNNの変種の組み合わせにより、LibriSpeech由来データセット上の畳み込みネットワークの分類精度が大幅に向上することを示した。
また、現在のGoogle Speech CommandsデータセットV2 10+2クラスの分類と、約6倍のコンパクトなアーキテクチャを一致させ、Google Speech CommandsデータセットV2の35クラスの分類で現在の最高のSOTAを改善します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past few years, triplet loss-based metric embeddings have become a
de-facto standard for several important computer vision problems, most notably,
person reidentification. On the other hand, in the area of speech recognition
the metric embeddings generated by the triplet loss are rarely used even for
classification problems. We fill this gap showing that a combination of two
representation learning techniques: a triplet loss-based embedding and a
variant of kNN for classification instead of cross-entropy loss significantly
(by 26% to 38%) improves the classification accuracy for convolutional networks
on a LibriSpeech-derived LibriWords datasets. To do so, we propose a novel
phonetic similarity based triplet mining approach. We also match the current
best published SOTA for Google Speech Commands dataset V2 10+2-class
classification with an architecture that is about 6 times more compact and
improve the current best published SOTA for 35-class classification on Google
Speech Commands dataset V2 by over 40%.
- Abstract(参考訳): 過去数年間、三重項損失に基づく計量埋め込みは、いくつかの重要なコンピュータビジョン問題、特に人物同一化のデファクトスタンダードとなっている。
一方,音声認識の分野では,三重項損失によるメートル法埋め込みは,分類問題においてもほとんど使われない。
このギャップを埋めると、三重項損失に基づく埋め込みと、クロスエントロピー損失ではなく分類のためのkNNの変種の組み合わせ(26%から38%)により、LibriSpeech由来のLibriWordsデータセット上の畳み込みネットワークの分類精度が大幅に向上する。
そこで我々は,新しい音声類似性に基づく三重項マイニング手法を提案する。
また,google speech commands データセット v2 10+2 クラス分類の現在の最良版 sota と,約 6 倍のコンパクトなアーキテクチャを一致させ,google speech commands データセット v2 の 35 クラス分類の現在の最良版 sota を 40% 以上向上させた。
関連論文リスト
- PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval [31.835423198544706]
本稿では, Pseudo- Classification based Pseudo-Captioning (PC$2$) フレームワークについて述べる。
ミスマッチしたペアごとに、より情報的で具体的な監視を提供するために、擬似カプセルを生成します。
技術的貢献に加えて、NoW(NoW)と呼ばれる現実的なNCLデータセットを開発する。
論文 参考訳(メタデータ) (2024-08-02T15:54:49Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Auxiliary Cross-Modal Representation Learning with Triplet Loss
Functions for Online Handwriting Recognition [3.071136270246468]
クロスモーダル表現学習は、与えられたタスクのパフォーマンスを改善するために、2つ以上のモダリティ間の共有埋め込みを学ぶ。
シングルラベルとシークエンス・ツー・シーケンスの分類タスクに対して,ダイナミック・マージンを持つトリプルト・ロスを示す。
提案実験は, 分類精度の向上, 収束の高速化, クロスモーダル表現の改善による一般化性の向上を示す。
論文 参考訳(メタデータ) (2022-02-16T07:09:04Z) - Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection [21.410160004193916]
畳み込みニューラルネットワークに基づくマルチタスク学習モデル(MTL)フットノートコードを提案し,複数のソースからの情報を活用する。
3つのベンチマークデータセットで実施した実証分析は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-03-23T09:31:01Z) - Beyond Triplet Loss: Meta Prototypical N-tuple Loss for Person
Re-identification [118.72423376789062]
マルチクラス分類損失(N-tuple loss)を導入し、クエリごとの最適化のために複数の(N)インスタンスを共同で検討する。
マルチクラス分類を組み込んだモデルにより,ベンチマーク対象のReIDデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-06-08T23:34:08Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Learning to hash with semantic similarity metrics and empirical KL
divergence [3.04585143845864]
ハッシュの学習は、大規模データベースからの近接探索を正確に、そして近似的に行うための効率的なパラダイムである。
バイナリハッシュコードは典型的には、CNNから出力特徴を丸め、イメージから抽出される。
i) 学習特徴の相対的なハッシュコード距離を目標値と一致するように促進する新規な損失関数により, (i) を克服する。
我々は、ネットワーク出力とバイナリターゲット分布のKL分散の微分可能な推定を通じて、(ii)に対処し、その結果、特徴がバイナリに丸められたときの情報損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-05-11T08:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。