論文の概要: Transformer-based encoder-encoder architecture for Spoken Term Detection
- arxiv url: http://arxiv.org/abs/2211.01089v1
- Date: Wed, 2 Nov 2022 13:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:05:31.223601
- Title: Transformer-based encoder-encoder architecture for Spoken Term Detection
- Title(参考訳): 音声項検出のためのトランスベースエンコーダエンコーダアーキテクチャ
- Authors: Jan \v{S}vec, Lubo\v{s} \v{S}m\'idl, Jan Lehe\v{c}ka
- Abstract要約: 本稿では,トランスフォーマーアーキテクチャに基づく音声語検出手法を提案する。
本稿では,BERTライクな2つのエンコーダを用いたエンコーダ-エンコーダアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The paper presents a method for spoken term detection based on the
Transformer architecture. We propose the encoder-encoder architecture employing
two BERT-like encoders with additional modifications, including convolutional
and upsampling layers, attention masking, and shared parameters. The encoders
project a recognized hypothesis and a searched term into a shared embedding
space, where the score of the putative hit is computed using the calibrated dot
product. In the experiments, we used the Wav2Vec 2.0 speech recognizer, and the
proposed system outperformed a baseline method based on deep LSTMs on the
English and Czech STD datasets based on USC Shoah Foundation Visual History
Archive (MALACH).
- Abstract(参考訳): 本稿では,トランスフォーマーアーキテクチャに基づく音声語検出手法を提案する。
本稿では,2つのBERTライクなエンコーダを用いたエンコーダ・エンコーダアーキテクチャを提案する。
エンコーダは、認識された仮説と探索された項とを共有埋め込み空間に投影し、キャリブレーションされたドット積を用いて、入力ヒットのスコアを算出する。
実験では,Wav2Vec 2.0音声認識器を用いて,USC Shoah Foundation Visual History Archive (MALACH) に基づく英語およびチェコ語STDデータセットの深部LSTMに基づくベースライン手法を性能評価した。
関連論文リスト
- Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Real-Time Target Sound Extraction [13.526450617545537]
実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。
本稿では,エンコーダとして拡張因果畳み込みレイヤを積み重ねたエンコーダデコーダアーキテクチャであるWaveformerと,デコーダとしてトランスフォーマデコーダレイヤを提案する。
論文 参考訳(メタデータ) (2022-11-04T03:51:23Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes [0.0]
我々は,S2Sデコード中にCTC-Prefix-Scoreを使用することを提案する。
ビームサーチ中、CTC信頼行列に従って無効となるパスがペナル化される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
論文 参考訳(メタデータ) (2021-10-12T11:40:05Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z) - Jointly Optimizing State Operation Prediction and Value Generation for
Dialogue State Tracking [23.828348485513043]
オープン語彙を用いた多ドメイン対話状態追跡(DST)の問題点について検討する。
既存のアプローチではBERTエンコーダとコピーベースのRNNデコーダを使用し、そこでエンコーダは状態操作を予測し、デコーダは新しいスロット値を生成する。
本稿では,1つのBERTがエンコーダとデコーダの両方として機能する,純粋にトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-24T04:54:52Z) - Exploring the Use of an Unsupervised Autoregressive Model as a Shared
Encoder for Text-Dependent Speaker Verification [22.894402178709136]
本稿では,タスク固有のデコーダを用いた共有エンコーダを用いたテキスト依存型自動話者検証(TD-ASV)を提案する。
提案手法は,大規模でラベルのないデータリッチなドメインから活用でき,下流タスクとは無関係に音声パターンを学習できることを示す。
論文 参考訳(メタデータ) (2020-08-08T22:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。