論文の概要: MATE: Matryoshka Audio-Text Embeddings for Open-Vocabulary Keyword Spotting
- arxiv url: http://arxiv.org/abs/2601.14012v1
- Date: Tue, 20 Jan 2026 14:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.35105
- Title: MATE: Matryoshka Audio-Text Embeddings for Open-Vocabulary Keyword Spotting
- Title(参考訳): MATE: オープン語彙キーワードスポッティングのためのMateryoshkaオーディオテキスト埋め込み
- Authors: Youngmoon Jung, Myunghun Jung, Joon-Young Yang, Yong-Hyeok Lee, Jaeyoung Roh, Hoon-Young Cho,
- Abstract要約: Matryoshka Audio-Text Embeddings (MATE)は、ネストしたサブ埋め込みを通じて単一のベクトル内の複数の粒度をエンコードするデュアルエンコーダフレームワークである。
MATEは、音声テキストKWSのための標準の深度学習目標を用いて訓練されており、損失に依存しない。
これは、KWS への matryoshka スタイルの埋め込みの最初の応用であり、WSJ と LibriPhrase に関する最先端の結果を推論オーバーヘッドなしに達成している。
- 参考スコア(独自算出の注目度): 15.033299024460463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary keyword spotting (KWS) with text-based enrollment has emerged as a flexible alternative to fixed-phrase triggers. Prior utterance-level matching methods, from an embedding-learning standpoint, learn embeddings at a single fixed dimensionality. We depart from this design and propose Matryoshka Audio-Text Embeddings (MATE), a dual-encoder framework that encodes multiple embedding granularities within a single vector via nested sub-embeddings ("prefixes"). Specifically, we introduce a PCA-guided prefix alignment: PCA-compressed versions of the full text embedding for each prefix size serve as teacher targets to align both audio and text prefixes. This alignment concentrates salient keyword cues in lower-dimensional prefixes, while higher dimensions add detail. MATE is trained with standard deep metric learning objectives for audio-text KWS, and is loss-agnostic. To our knowledge, this is the first application of matryoshka-style embeddings to KWS, achieving state-of-the-art results on WSJ and LibriPhrase without any inference overhead.
- Abstract(参考訳): Open-vocabularyキーワードスポッティング(KWS)とテキストベースの登録は、固定句トリガの柔軟な代替として登場した。
埋め込み学習の観点から、先行発話レベルのマッチング手法は、単一の固定次元で埋め込みを学習する。
我々は,この設計から離れ,マルチエンコーダフレームワークであるMatryoshka Audio-Text Embeddings (MATE)を提案する。
具体的には,PCA によるプレフィックスアライメントを導入する: PCA 圧縮されたプレフィックスサイズ毎のフルテキスト埋め込みバージョンは,教師の目標として機能し,オーディオとテキストのプレフィックスの整合を行う。
このアライメントは、より低次元の接頭辞に有能なキーワードキューを集中させ、高次元は詳細を付加する。
MATEは、音声テキストKWSのための標準の深度学習目標を用いて訓練されており、損失に依存しない。
我々の知る限り、これはKWS への matryoshka スタイルの埋め込みの最初の応用であり、WSJ と LibriPhrase に関する最先端の結果を推論オーバーヘッドなしに達成します。
関連論文リスト
- Adversarial Deep Metric Learning for Cross-Modal Audio-Text Alignment in Open-Vocabulary Keyword Spotting [8.401528952094413]
テキスト入力に基づくオープン語彙キーワードスポッティング(KWS)では、音響とテキストの埋め込みは通常、音素または発話レベルで比較される。
ディープ・メトリック・ラーニング(DML)を用いて音響およびテキストエンコーダを最適化し,共有埋め込み空間におけるマルチモーダル埋め込みの直接比較を可能にする。
異質なモダリティ表現における領域ギャップを低減するためのモダリティ適応学習(MAL)を提案する。
論文 参考訳(メタデータ) (2025-05-22T14:49:46Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting [6.856101216726412]
本稿では,テキストベースのキーワード入力によるオープン語彙キーワードスポッティング(KWS)のストリーミング手法を提案する。
提案手法は,各入力フレームに対して,コネクショニスト時間分類(CTC)を用いて最適なアライメント終端を求める。
次に、フレームレベルの音響埋め込み(AE)を集約して、ターゲットのキーワードテキストのテキスト埋め込み(TE)と整合する高レベル(文字、単語、フレーズ)のAEを得る。
論文 参考訳(メタデータ) (2024-06-12T06:44:40Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Learning-to-Rank Meets Language: Boosting Language-Driven Ordering
Alignment for Ordinal Classification [60.28913031192201]
順序分類のための新しい言語駆動順序付け手法を提案する。
事前学習された視覚言語モデルの最近の発展は、人間の言語におけるリッチな順序性を活用するきっかけとなった。
顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,美的評価を含む3つの日常的分類課題の実験は,その有望な性能を示す。
論文 参考訳(メタデータ) (2023-06-24T04:11:31Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。