論文の概要: Adapter-Based Multi-Agent AVSR Extension for Pre-Trained ASR Models
- arxiv url: http://arxiv.org/abs/2502.01709v1
- Date: Mon, 03 Feb 2025 14:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:52:18.591286
- Title: Adapter-Based Multi-Agent AVSR Extension for Pre-Trained ASR Models
- Title(参考訳): 事前学習型ASRモデルに対する適応型マルチエージェントAVSR拡張
- Authors: Christopher Simic, Korbinian Riedhammer, Tobias Bocklet,
- Abstract要約: 本稿では,事前学習したWhisperモデルに基づく音声認識手法を提案する。
この音声のみのモデルに視覚情報を注入するために、AV融合モジュールとLoRaアダプタで拡張する。
- 参考スコア(独自算出の注目度): 7.386396560556118
- License:
- Abstract: We present an approach to Audio-Visual Speech Recognition that builds on a pre-trained Whisper model. To infuse visual information into this audio-only model, we extend it with an AV fusion module and LoRa adapters, one of the most up-to-date adapter approaches. One advantage of adapter-based approaches, is that only a relatively small number of parameters are trained, while the basic model remains unchanged. Common AVSR approaches train single models to handle several noise categories and noise levels simultaneously. Taking advantage of the lightweight nature of adapter approaches, we train noise-scenario-specific adapter-sets, each covering individual noise-categories or a specific noise-level range. The most suitable adapter-set is selected by previously classifying the noise-scenario. This enables our models to achieve an optimum coverage across different noise-categories and noise-levels, while training only a minimum number of parameters. Compared to a full fine-tuning approach with SOTA performance our models achieve almost comparable results over the majority of the tested noise-categories and noise-levels, with up to 88.5% less trainable parameters. Our approach can be extended by further noise-specific adapter-sets to cover additional noise scenarios. It is also possible to utilize the underlying powerful ASR model when no visual information is available, as it remains unchanged.
- Abstract(参考訳): 本稿では,事前学習したWhisperモデルに基づく音声認識手法を提案する。
このオーディオのみのモデルに視覚情報を注入するために、最も最新のアダプタアプローチの一つであるAV融合モジュールとLoRaアダプタで拡張する。
アダプタベースのアプローチの利点の1つは、比較的少数のパラメータしか訓練されないのに対して、基本モデルは変更されていないことである。
共通のAVSRアプローチは、複数のノイズカテゴリとノイズレベルを同時に扱うために単一のモデルを訓練する。
アダプタアプローチの軽量性を利用して、ノイズ・シナリオ固有のアダプタセットを訓練し、それぞれが個々のノイズカテゴリまたは特定のノイズレベル範囲をカバーする。
最も適切なアダプタセットは、前もってノイズシナリオを分類することで選択される。
これにより、最小限のパラメータのみをトレーニングしながら、異なるノイズカテゴリとノイズレベルにまたがる最適なカバレッジを実現することができる。
SOTA性能の完全な微調整アプローチと比較すると、我々のモデルは試験対象のノイズカテゴリとノイズレベルの大部分に対してほぼ同等の結果を得ることができ、最大88.5%のトレーニング可能なパラメータが減少する。
我々のアプローチは、追加のノイズシナリオをカバーするために、さらにノイズ特異的なアダプタセットによって拡張することができる。
また、視覚情報が得られない場合に、基盤となる強力なASRモデルを利用することもできる。
関連論文リスト
- On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy [5.359060261460183]
言語モデルの低ランクタスク適応(LoRAやFLoRAなど)が提案されている。
データプライバシのレンズからの低ランク適応に注目します。
他の既存の微調整アルゴリズムとは異なり、低ランク適応は暗黙的に微調整データのプライバシーを提供する。
論文 参考訳(メタデータ) (2024-09-26T04:56:49Z) - Lightweight Zero-shot Text-to-Speech with Mixture of Adapters [36.29364245236912]
アダプタの混合 (MoA) を用いた軽量ゼロショット音声合成 (TTS) 手法を提案する。
提案手法は,非自己回帰的TSSモデルのデコーダと分散アダプタにMoAモジュールを組み込む。
提案手法は,最小限の追加パラメータで高品質な音声合成を実現する。
論文 参考訳(メタデータ) (2024-07-01T13:45:31Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for
Low-Resource TTS Adaptation [18.84413550077318]
本研究では,異なる話者の独特の特徴を学習するために「アダプタの混合」手法を提案する。
提案手法は,話者選好試験において5%の顕著な改善がみられ,ベースラインよりも優れていた。
これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。
論文 参考訳(メタデータ) (2023-05-29T11:39:01Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z) - Noise Estimation for Generative Diffusion Models [91.22679787578438]
そこで本研究では,任意のステップの雑音パラメータを調整可能な,単純で汎用的な学習手法を提案する。
私たちのアプローチは計算コストが無視できるものです。
論文 参考訳(メタデータ) (2021-04-06T15:46:16Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。