Fugu-MT 論文翻訳(概要): Matching Latent Encoding for Audio-Text based Keyword Spotting

論文の概要: Matching Latent Encoding for Audio-Text based Keyword Spotting

arxiv url: http://arxiv.org/abs/2306.05245v1
Date: Thu, 8 Jun 2023 14:44:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 13:55:48.565374
Title: Matching Latent Encoding for Audio-Text based Keyword Spotting
Title（参考訳）: 音声テキストに基づくキーワードスポッティングのためのマッチング潜時符号化
Authors: Kumari Nishu, Minsik Cho, Devang Naik
Abstract要約: フレキシブルキーワードスポッティング(KWS)のための音声テキストに基づくエンドツーエンドモデルアーキテクチャを提案する。我々のアーキテクチャは、動的プログラミングに基づく新しいアルゴリズムである動的シーケンス分割(DSP)を用いて、音声シーケンスを単語ベースのテキストシーケンスと同じ長さに最適に分割する。実験の結果,DSPは他のパーティショニング方式よりも有効であることがわかった。
参考スコア（独自算出の注目度）: 9.599402723927733
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Using audio and text embeddings jointly for Keyword Spotting (KWS) has shown high-quality results, but the key challenge of how to semantically align two embeddings for multi-word keywords of different sequence lengths remains largely unsolved. In this paper, we propose an audio-text-based end-to-end model architecture for flexible keyword spotting (KWS), which builds upon learned audio and text embeddings. Our architecture uses a novel dynamic programming-based algorithm, Dynamic Sequence Partitioning (DSP), to optimally partition the audio sequence into the same length as the word-based text sequence using the monotonic alignment of spoken content. Our proposed model consists of an encoder block to get audio and text embeddings, a projector block to project individual embeddings to a common latent space, and an audio-text aligner containing a novel DSP algorithm, which aligns the audio and text embeddings to determine if the spoken content is the same as the text. Experimental results show that our DSP is more effective than other partitioning schemes, and the proposed architecture outperformed the state-of-the-art results on the public dataset in terms of Area Under the ROC Curve (AUC) and Equal-Error-Rate (EER) by 14.4 % and 28.9%, respectively.
Abstract（参考訳）: キーワードスポッティング(KWS)に音声とテキストの埋め込みを併用すると、高品質な結果が得られるが、シーケンス長の異なる複数ワードキーワードに対して2つの埋め込みを意味的に整合させるという重要な課題はほとんど解決されていない。本稿では,学習音声とテキストの埋め込みに基づくフレキシブルキーワードスポッティング(KWS)のための,音声テキストに基づくエンドツーエンドモデルアーキテクチャを提案する。我々のアーキテクチャは、動的プログラミングに基づく新しいアルゴリズムである動的シーケンス分割(DSP)を用いて、音声コンテンツの単調アライメントを用いて、音声シーケンスを単語ベースのテキストシーケンスと同じ長さに最適に分割する。提案モデルは,音声とテキストの埋め込みを得るエンコーダブロックと,個々の埋め込みを共通の潜在空間に投影するプロジェクタブロックと,音声とテキストの埋め込みを整合させ,音声コンテンツがテキストと同一かどうかを判定する新しいdspアルゴリズムを含むオーディオテキストアライナーで構成されている。実験の結果, DSPは他の分割方式よりも有効であることが示され, 提案したアーキテクチャは, ROC曲線(AUC)とEER(Equal-Error-Rate)をそれぞれ14.4%, 28.9%向上させた。

関連論文リスト

TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文参考訳（メタデータ） (2025-06-13T03:19:47Z)
Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。 Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文参考訳（メタデータ） (2025-05-27T11:00:38Z)
Adversarial Deep Metric Learning for Cross-Modal Audio-Text Alignment in Open-Vocabulary Keyword Spotting [8.401528952094413]
テキスト入力に基づくオープン語彙キーワードスポッティング(KWS)では、音響とテキストの埋め込みは通常、音素または発話レベルで比較される。ディープ・メトリック・ラーニング(DML)を用いて音響およびテキストエンコーダを最適化し,共有埋め込み空間におけるマルチモーダル埋め込みの直接比較を可能にする。異質なモダリティ表現における領域ギャップを低減するためのモダリティ適応学習(MAL)を提案する。
論文参考訳（メタデータ） (2025-05-22T14:49:46Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting [6.856101216726412]
本稿では,テキストベースのキーワード入力によるオープン語彙キーワードスポッティング(KWS)のストリーミング手法を提案する。提案手法は,各入力フレームに対して,コネクショニスト時間分類(CTC)を用いて最適なアライメント終端を求める。次に、フレームレベルの音響埋め込み(AE)を集約して、ターゲットのキーワードテキストのテキスト埋め込み(TE)と整合する高レベル(文字、単語、フレーズ)のAEを得る。
論文参考訳（メタデータ） (2024-06-12T06:44:40Z)
C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。 C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文参考訳（メタデータ） (2024-05-25T09:10:12Z)
Distance Sampling-based Paraphraser Leveraging ChatGPT for Text Data Manipulation [15.765495448426904]
本稿では,音声検索タスクにおけるデータ不均衡問題に対処する新しい手法を提案する。 ChatGPTを利用した距離サンプリングに基づくパラフレーズは、操作されたテキストデータの制御可能な分布を生成する。提案手法は音声テキスト検索の性能を大幅に向上させ,従来のテキスト拡張手法よりも優れていた。
論文参考訳（メタデータ） (2024-05-01T07:44:28Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文参考訳（メタデータ） (2023-09-06T19:42:52Z)
Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding [5.697227044927832]
音声対応テキストエンコーダを用いて任意のキーワードを効率的に検出する新しいアーキテクチャを提案する。テキストエンコーダは,G2Pモデルを用いてテキストを音素に変換し,代表音素ベクトルを用いた埋め込みに変換する。実験結果から, この手法は, Libriphrase のハードデータセット上での最先端の結果よりも優れていた。
論文参考訳（メタデータ） (2023-08-12T05:41:15Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文参考訳（メタデータ） (2020-06-05T12:03:12Z)
Unsupervised Cross-Modal Audio Representation Learning from Unstructured Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。 3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文参考訳（メタデータ） (2020-03-27T07:37:15Z)
AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文参考訳（メタデータ） (2020-03-14T06:51:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。