論文の概要: Large scale evaluation of importance maps in automatic speech
recognition
- arxiv url: http://arxiv.org/abs/2005.10929v1
- Date: Thu, 21 May 2020 22:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:20:57.545024
- Title: Large scale evaluation of importance maps in automatic speech
recognition
- Title(参考訳): 自動音声認識における重要度マップの大規模評価
- Authors: Viet Anh Trinh, Michael I Mandel
- Abstract要約: 本稿では,個々の発話に対して自動音声認識のための重要度マップを評価するための指標を提案する。
評価手法は,標準分類タスクだけでなく,シーケンス・ツー・シーケンスモデルなどの構造化予測タスクにも適している。
- 参考スコア(独自算出の注目度): 14.64011777497868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a metric that we call the structured saliency
benchmark (SSBM) to evaluate importance maps computed for automatic speech
recognizers on individual utterances. These maps indicate time-frequency points
of the utterance that are most important for correct recognition of a target
word. Our evaluation technique is not only suitable for standard classification
tasks, but is also appropriate for structured prediction tasks like
sequence-to-sequence models. Additionally, we use this approach to perform a
large scale comparison of the importance maps created by our previously
introduced technique using "bubble noise" to identify important points through
correlation with a baseline approach based on smoothed speech energy and forced
alignment. Our results show that the bubble analysis approach is better at
identifying important speech regions than this baseline on 100 sentences from
the AMI corpus.
- Abstract(参考訳): 本稿では,音声の自動認識のための重要度マップを評価するために,SSBM(Structured Saliency benchmark)と呼ぶメトリクスを提案する。
これらの地図は、ターゲット語を正しく認識するために最も重要な発話の時間周波数ポイントを示す。
評価手法は,標準分類タスクだけでなく,シーケンス・ツー・シーケンスモデルなどの構造化予測タスクにも適している。
さらに,本手法を用いて,従来導入してきた「バブルノイズ」を用いた重要点マップの大規模比較を行い,スムーズな音声エネルギーと強制アライメントに基づくベースラインアプローチとの相関による重要点の同定を行う。
その結果,AMIコーパスからの100文のベースラインよりも,バブル解析手法が重要な音声領域の同定に有効であることが示唆された。
関連論文リスト
- CLIP-Clique: Graph-based Correspondence Matching Augmented by Vision Language Models for Object-based Global Localization [0.0]
オブジェクトマップ上のローカライズのための最も有望なアプローチの1つは、セマンティックグラフマッチングを使用することである。
従来の問題に対処するために、視覚言語モデルを用いた対応マッチングを強化する。
さらに、inlierはグラフ理論のアプローチを用いて決定的に推定される。
論文 参考訳(メタデータ) (2024-10-04T00:23:20Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Assessing Word Importance Using Models Trained for Semantic Tasks [0.0]
我々は、自然言語推論とパラフレーズ同定という、意味的課題を解決するために訓練されたモデルから単語の意義を導き出す。
我々は、いわゆるクロスタスク評価を用いて、それらの妥当性を評価する。
本手法は, 文章中の重要な単語を, 学習における単語のラベル付けを伴わずに識別することができる。
論文 参考訳(メタデータ) (2023-05-31T09:34:26Z) - Object Localization under Single Coarse Point Supervision [107.46800858130658]
本稿では,粗い点アノテーションを用いたPOL手法を提案する。
CPRは、ポイントバッグを構築し、セマンティック関連点を選択し、マルチインスタンス学習(MIL)を通してセマンティックセンターポイントを生成する。
このようにして、CPRは、粗い点監督の下で高性能オブジェクトローカライザのトレーニングを保証する、弱い制御された進化手順を定義する。
論文 参考訳(メタデータ) (2022-03-17T14:14:11Z) - Rethinking Counting and Localization in Crowds:A Purely Point-Based
Framework [59.578339075658995]
そこで本稿では,共同クラウドカウントと個別ローカライゼーションのための純粋にポイントベースのフレームワークを提案する。
我々は、P2PNet(Point to Point Network)と呼ばれる、このフレームワークの下で直感的なソリューションを設計する。
論文 参考訳(メタデータ) (2021-07-27T11:41:50Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Corpus-level and Concept-based Explanations for Interpretable Document
Classification [23.194220621342254]
本稿では,キーワードとモデル予測の間の因果関係を捉えるためのコーパスレベルの説明手法を提案する。
また,より高レベルな概念を自動学習し,モデル予測タスクにおいて重要となる概念に基づく説明手法を提案する。
論文 参考訳(メタデータ) (2020-04-24T20:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。