論文の概要: FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised
Learning Features in Robust End-to-end Speech Recognition
- arxiv url: http://arxiv.org/abs/2206.15056v1
- Date: Thu, 30 Jun 2022 06:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 15:54:26.714240
- Title: FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised
Learning Features in Robust End-to-end Speech Recognition
- Title(参考訳): FeaRESS:ロバストエンドツーエンド音声認識における自己教師付き学習特徴を組み込むための特徴補充損失
- Authors: Szu-Jui Chen, Jiamin Xie, John H.L. Hansen
- Abstract要約: エンド・ツー・エンド(E2E)ASRモデルにおける様々な融合手法を用いた多様なSSLR組合せの有効性について検討する。
提案した「FeaRLESS学習機能」は,WSJとFearless Steps Challenge(FSC)のコーパスにおいて,機能改善を伴わないシステムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 34.40924909515384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning representations (SSLR) have resulted in robust
features for downstream tasks in many fields. Recently, several SSLRs have
shown promising results on automatic speech recognition (ASR) benchmark
corpora. However, previous studies have only shown performance for solitary
SSLRs as an input feature for ASR models. In this study, we propose to
investigate the effectiveness of diverse SSLR combinations using various fusion
methods within end-to-end (E2E) ASR models. In addition, we will show there are
correlations between these extracted SSLRs. As such, we further propose a
feature refinement loss for decorrelation to efficiently combine the set of
input features. For evaluation, we show that the proposed 'FeaRLESS learning
features' perform better than systems without the proposed feature refinement
loss for both the WSJ and Fearless Steps Challenge (FSC) corpora.
- Abstract(参考訳): 自己教師付き学習表現(sslr)は多くの分野で下流タスクに堅牢な機能をもたらした。
近年,いくつかのSSLRが自動音声認識(ASR)ベンチマークコーパスで有望な結果を示している。
しかし、以前の研究では、ASRモデルの入力機能として、単独のSSLRの性能しか示さなかった。
本研究では,エンド・ツー・エンド(E2E)ASRモデルにおける様々な融合手法を用いて,多様なSSLR組み合わせの有効性を検討する。
さらに,これらの抽出したSSLR間に相関関係を示す。
そこで我々は,デコリレーションのための特徴改善損失を提案し,入力特徴の集合を効率的に組み合わせる。
評価のために,提案した「FeaRLESS学習機能」は,WSJとFearless Steps Challenge(FSC)のコーパスにおいて,機能改善の損失のないシステムよりも優れていることを示す。
関連論文リスト
- Training Strategies for Isolated Sign Language Recognition [72.27323884094953]
本稿では,孤立手話認識のための包括的モデル学習パイプラインを提案する。
構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。
WLASLとSlovoのベンチマークでは、以前のベストソリューションと比較して1.63%と14.12%の改善が得られた。
論文 参考訳(メタデータ) (2024-12-16T08:37:58Z) - Exploring Stronger Transformer Representation Learning for Occluded Person Re-Identification [2.552131151698595]
我々はトランスフォーマーに基づく人物識別フレームワークであるSSSC-TransReIDを組み合わせた新しい自己監督・監督手法を提案した。
我々は、ネガティブなサンプルや追加の事前学習なしに、人物の再識別のための特徴表現を強化することができる自己教師付きコントラスト学習ブランチを設計した。
提案モデルでは, 平均平均精度(mAP) とランク1の精度において, 最先端のReID手法よりも優れたRe-ID性能が得られ, 高いマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-10-21T03:17:25Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Improving Membership Inference in ASR Model Auditing with Perturbed Loss Features [32.765965044767356]
メンバーシップ推論(MI)は、自動音声認識(ASR)システムのトレーニングデータに対して、かなりのプライバシー上の脅威となる。
本稿では,ASRモデルにおけるMIを実現するために,ガウスと逆方向の摂動を併用した損失に基づく特徴量の有効性について検討する。
論文 参考訳(メタデータ) (2024-05-02T11:48:30Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Investigation of Ensemble features of Self-Supervised Pretrained Models
for Automatic Speech Recognition [0.3007949058551534]
自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。
本稿では、これらのSSL表現とモデルのアンサンブルを用いて、様々な事前訓練されたモデルによって抽出された特徴の相補的な性質を活用することを提案する。
論文 参考訳(メタデータ) (2022-06-11T12:43:00Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。