Fugu-MT 論文翻訳(概要): FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised Learning Features in Robust End-to-end Speech Recognition

論文の概要: FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised Learning Features in Robust End-to-end Speech Recognition

arxiv url: http://arxiv.org/abs/2206.15056v1
Date: Thu, 30 Jun 2022 06:39:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-01 15:54:26.714240
Title: FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised Learning Features in Robust End-to-end Speech Recognition
Title（参考訳）: FeaRESS:ロバストエンドツーエンド音声認識における自己教師付き学習特徴を組み込むための特徴補充損失
Authors: Szu-Jui Chen, Jiamin Xie, John H.L. Hansen
Abstract要約: エンド・ツー・エンド(E2E)ASRモデルにおける様々な融合手法を用いた多様なSSLR組合せの有効性について検討する。提案した「FeaRLESS学習機能」は,WSJとFearless Steps Challenge(FSC)のコーパスにおいて,機能改善を伴わないシステムよりも優れていることを示す。
参考スコア（独自算出の注目度）: 34.40924909515384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised learning representations (SSLR) have resulted in robust features for downstream tasks in many fields. Recently, several SSLRs have shown promising results on automatic speech recognition (ASR) benchmark corpora. However, previous studies have only shown performance for solitary SSLRs as an input feature for ASR models. In this study, we propose to investigate the effectiveness of diverse SSLR combinations using various fusion methods within end-to-end (E2E) ASR models. In addition, we will show there are correlations between these extracted SSLRs. As such, we further propose a feature refinement loss for decorrelation to efficiently combine the set of input features. For evaluation, we show that the proposed 'FeaRLESS learning features' perform better than systems without the proposed feature refinement loss for both the WSJ and Fearless Steps Challenge (FSC) corpora.
Abstract（参考訳）: 自己教師付き学習表現(sslr)は多くの分野で下流タスクに堅牢な機能をもたらした。近年,いくつかのSSLRが自動音声認識(ASR)ベンチマークコーパスで有望な結果を示している。しかし、以前の研究では、ASRモデルの入力機能として、単独のSSLRの性能しか示さなかった。本研究では,エンド・ツー・エンド(E2E)ASRモデルにおける様々な融合手法を用いて,多様なSSLR組み合わせの有効性を検討する。さらに,これらの抽出したSSLR間に相関関係を示す。そこで我々は,デコリレーションのための特徴改善損失を提案し,入力特徴の集合を効率的に組み合わせる。評価のために,提案した「FeaRLESS学習機能」は,WSJとFearless Steps Challenge(FSC)のコーパスにおいて,機能改善の損失のないシステムよりも優れていることを示す。

関連論文リスト

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文参考訳（メタデータ） (2026-02-24T14:46:54Z)
Training Strategies for Isolated Sign Language Recognition [72.27323884094953]
本稿では,孤立手話認識のための包括的モデル学習パイプラインを提案する。構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。 WLASLとSlovoのベンチマークでは、以前のベストソリューションと比較して1.63%と14.12%の改善が得られた。
論文参考訳（メタデータ） (2024-12-16T08:37:58Z)
Exploring Stronger Transformer Representation Learning for Occluded Person Re-Identification [2.552131151698595]
我々はトランスフォーマーに基づく人物識別フレームワークであるSSSC-TransReIDを組み合わせた新しい自己監督・監督手法を提案した。我々は、ネガティブなサンプルや追加の事前学習なしに、人物の再識別のための特徴表現を強化することができる自己教師付きコントラスト学習ブランチを設計した。提案モデルでは, 平均平均精度(mAP) とランク1の精度において, 最先端のReID手法よりも優れたRe-ID性能が得られ, 高いマージンで性能が向上する。
論文参考訳（メタデータ） (2024-10-21T03:17:25Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文参考訳（メタデータ） (2024-06-25T07:45:00Z)
Improving Membership Inference in ASR Model Auditing with Perturbed Loss Features [32.765965044767356]
メンバーシップ推論(MI)は、自動音声認識(ASR)システムのトレーニングデータに対して、かなりのプライバシー上の脅威となる。本稿では,ASRモデルにおけるMIを実現するために,ガウスと逆方向の摂動を併用した損失に基づく特徴量の有効性について検討する。
論文参考訳（メタデータ） (2024-05-02T11:48:30Z)
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。 TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文参考訳（メタデータ） (2023-07-23T05:39:39Z)
Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。 SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文参考訳（メタデータ） (2023-03-03T02:07:40Z)
Investigation of Ensemble features of Self-Supervised Pretrained Models for Automatic Speech Recognition [0.3007949058551534]
自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。本稿では、これらのSSL表現とモデルのアンサンブルを用いて、様々な事前訓練されたモデルによって抽出された特徴の相補的な性質を活用することを提案する。
論文参考訳（メタデータ） (2022-06-11T12:43:00Z)
ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。 Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文参考訳（メタデータ） (2022-02-02T21:17:14Z)
Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる ASR誤差はカスケード法における出力要約の品質に直接影響する。本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文参考訳（メタデータ） (2021-11-16T03:00:29Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。