Fugu-MT 論文翻訳(概要): Speech Robust Bench: A Robustness Benchmark For Speech Recognition

論文の概要: Speech Robust Bench: A Robustness Benchmark For Speech Recognition

arxiv url: http://arxiv.org/abs/2403.07937v1
Date: Fri, 8 Mar 2024 08:10:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 17:27:47.156342
Title: Speech Robust Bench: A Robustness Benchmark For Speech Recognition
Title（参考訳）: 音声ロバストベンチ:音声認識のためのロバストネスベンチマーク
Authors: Muhammad A. Shah, David Solans Noguero, Mikko A. Heikkila and Nicolas Kourtellis
Abstract要約: Speech Robust Bench (SRB) は、さまざまな汚職に対するASRモデルの堅牢性を評価するためのベンチマークである。 SRBは69の入力摂動で構成されており、ASRモデルが物理的およびデジタルの世界で遭遇する可能性のある様々な腐敗をシミュレートすることを目的としている。
参考スコア（独自算出の注目度）: 2.806656131056252
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Automatic Speech Recognition (ASR) models become ever more pervasive, it is important to ensure that they make reliable predictions under corruptions present in the physical and digital world. We propose Speech Robust Bench (SRB), a comprehensive benchmark for evaluating the robustness of ASR models to diverse corruptions. SRB is composed of 69 input perturbations which are intended to simulate various corruptions that ASR models may encounter in the physical and digital world. We use SRB to evaluate the robustness of several state-of-the-art ASR models and observe that model size and certain modeling choices such as discrete representations, and self-training appear to be conducive to robustness. We extend this analysis to measure the robustness of ASR models on data from various demographic subgroups, namely English and Spanish speakers, and males and females, and observed noticeable disparities in the model's robustness across subgroups. We believe that SRB will facilitate future research towards robust ASR models, by making it easier to conduct comprehensive and comparable robustness evaluations.
Abstract（参考訳）: 音声認識(ASR)モデルがより広く普及するにつれて、物理・デジタルの世界に存在する汚職の下で信頼性の高い予測を行うことが重要である。本稿では,多様な汚職に対するASRモデルの堅牢性を評価するための総合的なベンチマークであるSingech Robust Bench (SRB)を提案する。 SRBは69の入力摂動で構成されており、ASRモデルが物理的およびデジタルの世界で遭遇する可能性のある様々な腐敗をシミュレートすることを目的としている。我々は、SRBを用いて、最先端のASRモデルのロバスト性を評価し、モデルサイズと離散表現のような特定のモデル選択、そして自己学習がロバスト性に寄与するように見えることを観察する。この分析は、英語とスペイン語の話者、および男女の様々な人口層群からのデータに基づいて、ASRモデルのロバスト性を測定するために拡張され、サブグループ間でのモデルのロバスト性に顕著な相違が観察された。 SRBは、より包括的かつ同等の堅牢性評価を行うことにより、より堅牢なASRモデルに向けた将来の研究を促進すると我々は信じている。

関連論文リスト

Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。 NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文参考訳（メタデータ） (2026-01-12T05:43:51Z)
Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。 RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文参考訳（メタデータ） (2025-09-29T01:40:26Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文参考訳（メタデータ） (2025-04-24T16:36:19Z)
Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文参考訳（メタデータ） (2024-11-14T06:32:31Z)
Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective [111.58315434849047]
ニューラルネットワーク検索モデル(IR)モデルの堅牢性は、大きな注目を集めている。我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
論文参考訳（メタデータ） (2024-07-09T16:07:01Z)
$\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations [36.74309198908876]
摂動の包括的分類法を提案し, 複合障害の効果を合成・評価するための汎用ツールボックスを開発した。 LLMをベースとしたエージェントであるtextR2$-Agentを提案する。
論文参考訳（メタデータ） (2024-03-07T22:18:12Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文参考訳（メタデータ） (2023-04-19T11:07:43Z)
Factual Consistency Oriented Speech Recognition [23.754107608608106]
提案フレームワークは, ASR の仮説と接地真実の整合性を最大化するために, ASR モデルを最適化する。提案手法を用いてASRモデルのトレーニングを行うことにより,会話要約の事実整合性によって,音声要約品質が向上することが示されている。
論文参考訳（メタデータ） (2023-02-24T00:01:41Z)
Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文参考訳（メタデータ） (2023-01-03T06:47:31Z)
Improving Confidence Estimation on Out-of-Domain Data for End-to-End Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文参考訳（メタデータ） (2021-10-07T10:44:27Z)
Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。 GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文参考訳（メタデータ） (2021-03-10T17:40:48Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。