Fugu-MT 論文翻訳(概要): PI-Whisper: An Adaptive and Incremental ASR Framework for Diverse and Evolving Speaker Characteristics

論文の概要: PI-Whisper: An Adaptive and Incremental ASR Framework for Diverse and Evolving Speaker Characteristics

arxiv url: http://arxiv.org/abs/2406.15668v1
Date: Fri, 21 Jun 2024 21:58:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 21:14:22.367658
Title: PI-Whisper: An Adaptive and Incremental ASR Framework for Diverse and Evolving Speaker Characteristics
Title（参考訳）: PI-Whisper: 話者特性の多様性と進化のための適応的でインクリメンタルなASRフレームワーク
Authors: Amir Nassereldine, Dancheng Liu, Chenhui Xu, Jinjun Xiong,
Abstract要約: PI-Whisperは、話者の特性をリアルタイムで識別することで、ASRの認識能力を適応的に改善できることを示す。 PI-Whisperは、コンピュータリソースに対する線形スケーラビリティでワードエラー率(WER)を最大13.7%削減して最先端の精度を達成する。
参考スコア（独自算出の注目度）: 18.678742816040856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As edge-based automatic speech recognition (ASR) technologies become increasingly prevalent for the development of intelligent and personalized assistants, three important challenges must be addressed for these resource-constrained ASR models, i.e., adaptivity, incrementality, and inclusivity. We propose a novel ASR framework, PI-Whisper, in this work and show how it can improve an ASR's recognition capabilities adaptively by identifying different speakers' characteristics in real-time, how such an adaption can be performed incrementally without repetitive retraining, and how it can improve the equity and fairness for diverse speaker groups. More impressively, our proposed PI-Whisper framework attains all of these nice properties while still achieving state-of-the-art accuracy with up to 13.7% reduction of the word error rate (WER) with linear scalability with respect to computing resources.
Abstract（参考訳）: エッジベース自動音声認識(ASR)技術がインテリジェントでパーソナライズされたアシスタントの開発においてますます普及するにつれて、これらのリソース制約されたASRモデル、すなわち適応性、漸進性、傾き性の3つの重要な課題に対処する必要がある。本稿では,ASR フレームワーク PI-Whisper を提案するとともに,異なる話者の特性をリアルタイムに識別することにより,ASR の認識能力を適応的に向上させる方法,反復的再学習を伴わずに適応を段階的に行う方法,多様な話者群の公平性と公平性を改善する方法について述べる。さらに印象的なことに、提案したPI-Whisperフレームワークは、コンピュータリソースに対する線形スケーラビリティでワードエラー率(WER)を最大13.7%削減し、最先端の精度を保ちながら、これらの優れた特性をすべて達成しています。

関連論文リスト

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文参考訳（メタデータ） (2026-02-24T14:46:54Z)
Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses [0.08155575318208629]
音声匿名化は、話者のアイデンティティを曖昧にしつつ、その後のタスクに重要な情報を保持する必要がある。本研究は,人間の聴覚システムにインスパイアされた損失関数の重要性を浮き彫りにする。提案する損失関数はモデルに依存しず,手工芸と深層学習を併用して品質表現を効果的に把握する。
論文参考訳（メタデータ） (2024-10-20T20:33:44Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
Extending Whisper with prompt tuning to target-speaker ASR [18.31992429200396]
ターゲット話者自動音声認識(Target-Speaker Automatic Speech Recognition, ASR)は、ターゲット話者の所望の音声を重なり合う発話から書き起こすことを目的としている。既存のターゲットスピーカーASR(TS-ASR)の手法のほとんどは、スクラッチからトレーニングするか、事前訓練されたモデルを完全に微調整するものである。この研究は、パラメータ効率のよい微調整手法であるプロンプトチューニングを利用して、大規模なシングルストーカーASRモデルであるWhisperをTS-ASRに拡張する。
論文参考訳（メタデータ） (2023-12-13T11:49:16Z)
ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文参考訳（メタデータ） (2023-12-11T04:51:41Z)
AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文参考訳（メタデータ） (2023-11-30T22:58:30Z)
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。 TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文参考訳（メタデータ） (2023-07-23T05:39:39Z)
On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文参考訳（メタデータ） (2023-05-21T18:52:21Z)
Using External Off-Policy Speech-To-Text Mappings in Contextual End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。 LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文参考訳（メタデータ） (2023-01-06T22:32:50Z)
Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding [28.441725610692714]
本稿では,ASRの誤りに対して頑健な発話表現を,対照的な目的を用いて学習することに焦点を当てる。 3つのベンチマークデータセットの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-05-02T07:21:21Z)
ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。 Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文参考訳（メタデータ） (2022-02-02T21:17:14Z)
Voice Quality and Pitch Features in Transformer-Based Speech Recognition [3.921076451326107]
本研究では,トランスフォーマーに基づくASRモデルに対して,音声品質とピッチ特徴を完全かつ個別に取り入れることの効果について検討した。 We found mean Word Error Rate relative reductions to up 5.6% with the LibriSpeech benchmark。
論文参考訳（メタデータ） (2021-12-21T17:49:06Z)
An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文参考訳（メタデータ） (2021-06-05T06:19:14Z)
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文参考訳（メタデータ） (2021-04-19T16:18:00Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)
Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文参考訳（メタデータ） (2020-03-31T02:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。