論文の概要: Speech Robust Bench: A Robustness Benchmark For Speech Recognition
- arxiv url: http://arxiv.org/abs/2403.07937v1
- Date: Fri, 8 Mar 2024 08:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:27:47.156342
- Title: Speech Robust Bench: A Robustness Benchmark For Speech Recognition
- Title(参考訳): 音声ロバストベンチ:音声認識のためのロバストネスベンチマーク
- Authors: Muhammad A. Shah, David Solans Noguero, Mikko A. Heikkila and Nicolas
Kourtellis
- Abstract要約: Speech Robust Bench (SRB) は、さまざまな汚職に対するASRモデルの堅牢性を評価するためのベンチマークである。
SRBは69の入力摂動で構成されており、ASRモデルが物理的およびデジタルの世界で遭遇する可能性のある様々な腐敗をシミュレートすることを目的としている。
- 参考スコア(独自算出の注目度): 2.806656131056252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Automatic Speech Recognition (ASR) models become ever more pervasive, it
is important to ensure that they make reliable predictions under corruptions
present in the physical and digital world. We propose Speech Robust Bench
(SRB), a comprehensive benchmark for evaluating the robustness of ASR models to
diverse corruptions. SRB is composed of 69 input perturbations which are
intended to simulate various corruptions that ASR models may encounter in the
physical and digital world. We use SRB to evaluate the robustness of several
state-of-the-art ASR models and observe that model size and certain modeling
choices such as discrete representations, and self-training appear to be
conducive to robustness. We extend this analysis to measure the robustness of
ASR models on data from various demographic subgroups, namely English and
Spanish speakers, and males and females, and observed noticeable disparities in
the model's robustness across subgroups. We believe that SRB will facilitate
future research towards robust ASR models, by making it easier to conduct
comprehensive and comparable robustness evaluations.
- Abstract(参考訳): 音声認識(ASR)モデルがより広く普及するにつれて、物理・デジタルの世界に存在する汚職の下で信頼性の高い予測を行うことが重要である。
本稿では,多様な汚職に対するASRモデルの堅牢性を評価するための総合的なベンチマークであるSingech Robust Bench (SRB)を提案する。
SRBは69の入力摂動で構成されており、ASRモデルが物理的およびデジタルの世界で遭遇する可能性のある様々な腐敗をシミュレートすることを目的としている。
我々は、SRBを用いて、最先端のASRモデルのロバスト性を評価し、モデルサイズと離散表現のような特定のモデル選択、そして自己学習がロバスト性に寄与するように見えることを観察する。
この分析は、英語とスペイン語の話者、および男女の様々な人口層群からのデータに基づいて、ASRモデルのロバスト性を測定するために拡張され、サブグループ間でのモデルのロバスト性に顕著な相違が観察された。
SRBは、より包括的かつ同等の堅牢性評価を行うことにより、より堅牢なASRモデルに向けた将来の研究を促進すると我々は信じている。
関連論文リスト
- Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。
そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T06:32:31Z) - Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective [111.58315434849047]
ニューラルネットワーク検索モデル(IR)モデルの堅牢性は、大きな注目を集めている。
我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。
我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
論文 参考訳(メタデータ) (2024-07-09T16:07:01Z) - $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception
Models under Perturbations [36.74309198908876]
摂動の包括的分類法を提案し, 複合障害の効果を合成・評価するための汎用ツールボックスを開発した。
LLMをベースとしたエージェントであるtextR2$-Agentを提案する。
論文 参考訳(メタデータ) (2024-03-07T22:18:12Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Factual Consistency Oriented Speech Recognition [23.754107608608106]
提案フレームワークは, ASR の仮説と接地真実の整合性を最大化するために, ASR モデルを最適化する。
提案手法を用いてASRモデルのトレーニングを行うことにより,会話要約の事実整合性によって,音声要約品質が向上することが示されている。
論文 参考訳(メタデータ) (2023-02-24T00:01:41Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-07T10:44:27Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。