論文の概要: CNN-based Spoken Term Detection and Localization without Dynamic
Programming
- arxiv url: http://arxiv.org/abs/2103.05468v1
- Date: Sun, 7 Mar 2021 14:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 14:42:32.999203
- Title: CNN-based Spoken Term Detection and Localization without Dynamic
Programming
- Title(参考訳): 動的プログラミングを伴わないcnn音声単語検出と局所化
- Authors: Tzeviya Sylvia Fuchs, Yael Segal and Joseph Keshet
- Abstract要約: 提案アルゴリズムは、音声信号の様々な部分の単語埋め込みを予測することにより、ある単語が所定の音声信号内で発話されたかどうかを推定する。
アルゴリズムは、ターゲット項のすべての可能な位置を同時に予測し、最適な検索のために動的プログラミングを必要としません。
- 参考スコア(独自算出の注目度): 16.322420712725716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a spoken term detection algorithm for simultaneous
prediction and localization of in-vocabulary and out-of-vocabulary terms within
an audio segment. The proposed algorithm infers whether a term was uttered
within a given speech signal or not by predicting the word embeddings of
various parts of the speech signal and comparing them to the word embedding of
the desired term. The algorithm utilizes an existing embedding space for this
task and does not need to train a task-specific embedding space. At inference
the algorithm simultaneously predicts all possible locations of the target term
and does not need dynamic programming for optimal search. We evaluate our
system on several spoken term detection tasks on read speech corpora.
- Abstract(参考訳): 本稿では,音声セグメント内の語彙内および語彙外用語の同時予測と局所化のための音声項検出アルゴリズムを提案する。
提案アルゴリズムは、音声信号の様々な部分の単語埋め込みを予測し、所望の単語埋め込みと比較することにより、ある単語が所定の音声信号内に発声されたか否かを推定する。
このアルゴリズムはこのタスクに既存の埋め込みスペースを利用し、タスク固有の埋め込みスペースをトレーニングする必要がない。
推定では、アルゴリズムはターゲット項のすべての可能な位置を同時に予測し、最適な検索のために動的プログラミングを必要としません。
読み上げ音声コーポラにおける複数の音声単語検出タスクのシステム評価を行った。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Curriculum Learning for Goal-Oriented Semantic Communications with a
Common Language [60.85719227557608]
話者とリスナーが協調して一連のタスクを実行することを可能にするために,総合目標指向のセマンティックコミュニケーションフレームワークを提案する。
話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。
最適化問題は、イベントの完全かつ抽象的な記述を決定するために定義される。
論文 参考訳(メタデータ) (2022-04-21T22:36:06Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - On the Difficulty of Segmenting Words with Attention [32.97060026226872]
しかし、モノリンガルデータでさえこのアプローチは脆弱であることを示す。
異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムの実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
論文 参考訳(メタデータ) (2021-09-21T11:37:08Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - A Novel Word Sense Disambiguation Approach Using WordNet Knowledge Graph [0.0]
本稿では,SCSMM (Sequential Contextual Likeity Matrix multiplication) という知識に基づく単語感覚解読アルゴリズムを提案する。
SCSMMアルゴリズムは、セマンティックな類似性、知識、文書コンテキストを組み合わせて、それぞれローカルコンテキストのメリットを利用する。
提案されたアルゴリズムは、金の標準データセットの名詞を曖昧にするときに他のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-01-08T06:47:32Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Acoustic Word Embedding System for Code-Switching Query-by-example
Spoken Term Detection [17.54377669932433]
本稿では,音声単語検出の例によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。
1つの言語だけを使うのではなく、2つの言語でオーディオデータを組み合わせてトレーニングします。
論文 参考訳(メタデータ) (2020-05-24T15:27:56Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。