Fugu-MT 論文翻訳(概要): Rethinking Evaluation in ASR: Are Our Models Robust Enough?

論文の概要: Rethinking Evaluation in ASR: Are Our Models Robust Enough?

arxiv url: http://arxiv.org/abs/2010.11745v3
Date: Sun, 2 May 2021 18:30:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 05:56:08.991636
Title: Rethinking Evaluation in ASR: Are Our Models Robust Enough?
Title（参考訳）: ASRでの評価を再考する: 私たちのモデルはロバストか?
Authors: Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Paden Tomasello, Jacob Kahn, Gilad Avidov, Ronan Collobert, Gabriel Synnaeve
Abstract要約: 一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
参考スコア（独自算出の注目度）: 30.114009549372923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Is pushing numbers on a single benchmark valuable in automatic speech recognition? Research results in acoustic modeling are typically evaluated based on performance on a single dataset. While the research community has coalesced around various benchmarks, we set out to understand generalization performance in acoustic modeling across datasets - in particular, if models trained on a single dataset transfer to other (possibly out-of-domain) datasets. We show that, in general, reverberative and additive noise augmentation improves generalization performance across domains. Further, we demonstrate that when a large enough set of benchmarks is used, average word error rate (WER) performance over them provides a good proxy for performance on real-world noisy data. Finally, we show that training a single acoustic model on the most widely-used datasets - combined - reaches competitive performance on both research and real-world benchmarks.
Abstract（参考訳）: 単一のベンチマークでの数値の押し付けは音声認識に有用か? 音響モデリングの研究結果は通常、単一のデータセットのパフォーマンスに基づいて評価される。研究コミュニティはさまざまなベンチマークを中心に活動していますが、データセット間の音響モデルにおける一般化のパフォーマンスを理解することにしました。一般に,残響および付加音の増大により,領域間の一般化性能が向上することを示す。さらに,大量のベンチマークが使用されると,平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータに優れたプロキシを提供することを示した。最後に、最も広く使われているデータセットで単一の音響モデルをトレーニングすることで、研究と実世界のベンチマークの両方で競合するパフォーマンスに達することを示す。

関連論文リスト

Ensemble-Based Deepfake Detection using State-of-the-Art Models with Robust Cross-Dataset Generalisation [0.0]
機械学習ベースのDeepfake検出モデルは、ベンチマークデータセットで印象的な結果を得た。しかし、アウト・オブ・ディストリビューションデータで評価すると、その性能は著しく低下することが多い。本研究では,ディープフェイク検出システムの一般化のためのアンサンブルに基づくアプローチについて検討する。
論文参考訳（メタデータ） (2025-07-08T13:54:48Z)
Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis [36.689210473887904]
本稿では,ディープラーニング(DL)モデルと機械学習(ML)モデルにおけるデータセット間予測の一般化を評価するためのベンチマークフレームワークを提案する。絶対的なパフォーマンス(データセット間での予測精度など)と相対的なパフォーマンス(例えば、データセット内の結果と比較してパフォーマンス低下)の両方を定量化します。本結果は,厳密な一般化評価の重要性を浮き彫りにして,未知のデータセット上でモデルをテストする場合の大幅な性能低下を明らかにした。
論文参考訳（メタデータ） (2025-03-18T15:40:18Z)
Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。 LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文参考訳（メタデータ） (2025-03-05T05:39:29Z)
Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文参考訳（メタデータ） (2024-10-21T03:48:23Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
EBES: Easy Benchmarking for Event Sequences [17.277513178760348]
イベントシーケンスは、ヘルスケア、ファイナンス、ユーザインタラクションログなど、さまざまな現実世界のドメインにおける一般的なデータ構造である。時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準ベンチマークは存在しない。標準化された評価シナリオとプロトコルを備えた総合的なベンチマークツールであるEBESを紹介する。
論文参考訳（メタデータ） (2024-10-04T13:03:43Z)
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。 TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文参考訳（メタデータ） (2024-10-02T12:21:06Z)
SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-08-14T23:33:10Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文参考訳（メタデータ） (2023-12-14T18:56:07Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。 Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文参考訳（メタデータ） (2021-04-17T23:29:55Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。