論文の概要: Query-by-Example Keyword Spotting system using Multi-head Attention and
Softtriple Loss
- arxiv url: http://arxiv.org/abs/2102.07061v1
- Date: Sun, 14 Feb 2021 03:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:12:21.389915
- Title: Query-by-Example Keyword Spotting system using Multi-head Attention and
Softtriple Loss
- Title(参考訳): マルチヘッドアテンションとソフトトリプルロスを用いたクエリバイサンプルキーワードスポッティングシステム
- Authors: Jinmiao Huang, Waseem Gharbieh, Han Suk Shim, Eugene Kim
- Abstract要約: 本稿では,ユーザ定義キーワードスポッティングタスクの検索を行うニューラルネットワークアーキテクチャを提案する。
効果的な特徴抽出のために、マルチレイヤーgrgの上にマルチヘッドアテンションモジュールを付加する。
また,三重項損失とソフトマックス損失の組み合わせであるソフトトリプル損失を採用し,その効果を示す。
- 参考スコア(独自算出の注目度): 1.179778723980276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a neural network architecture for tackling the
query-by-example user-defined keyword spotting task. A multi-head attention
module is added on top of a multi-layered GRU for effective feature extraction,
and a normalized multi-head attention module is proposed for feature
aggregation. We also adopt the softtriple loss - a combination of triplet loss
and softmax loss - and showcase its effectiveness. We demonstrate the
performance of our model on internal datasets with different languages and the
public Hey-Snips dataset. We compare the performance of our model to a baseline
system and conduct an ablation study to show the benefit of each component in
our architecture. The proposed work shows solid performance while preserving
simplicity.
- Abstract(参考訳): 本稿では,ユーザ定義キーワードスポッティングタスクの検索を行うニューラルネットワークアーキテクチャを提案する。
効果的な特徴抽出のための多層GRU上にマルチヘッド注意モジュールを追加し、特徴集約のための正規化されたマルチヘッド注意モジュールを提案する。
また,三重項損失とソフトマックス損失の組み合わせであるソフトトリプル損失を採用し,その効果を示す。
異なる言語を持つ内部データセットと公開Hey-Snipsデータセットにおけるモデルのパフォーマンスを実証する。
本モデルの性能をベースラインシステムと比較し,アーキテクチャの各コンポーネントの利点を示すためにアブレーション研究を行った。
提案手法はシンプルさを保ちつつ,堅牢な性能を示す。
関連論文リスト
- Retinal IPA: Iterative KeyPoints Alignment for Multimodal Retinal Imaging [11.70130626541926]
マルチモダリティ網膜画像間のマッチングと登録を強化するために,クロスモダリティ特徴を学習するための新しいフレームワークを提案する。
本モデルでは,従来の学習に基づく特徴検出と記述手法の成功を例に挙げる。
同じ画像の異なるオーグメンテーション間のセグメンテーション一貫性を強制することにより、自己指導的な方法で訓練される。
論文 参考訳(メタデータ) (2024-07-25T19:51:27Z) - Small, Versatile and Mighty: A Range-View Perception Framework [13.85089181673372]
本稿では,LiDARデータの3次元検出のための新しいマルチタスクフレームワークを提案する。
我々のフレームワークは,LiDARポイントクラウドのためのセグメンテーションとパノプティクスセグメンテーションタスクを統合している。
レンジビューに基づく手法の中で,本モデルでは,Openデータセット上での新たな最先端検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T07:02:42Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Exploring Multi-dimensional Data via Subset Embedding [13.092303047029311]
サブセットパターンを探索する視覚分析手法を提案する。
アプローチの中核はサブセット埋め込みネットワーク(SEN)であり、サブセットの群を一様に変形した埋め込みとして表現する。
この設計により、任意のサブセットを処理し、単一の機能でサブセットの類似性をキャプチャできる。
論文 参考訳(メタデータ) (2021-04-24T03:08:08Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。