論文の概要: Multimodal Attention Merging for Improved Speech Recognition and Audio
Event Classification
- arxiv url: http://arxiv.org/abs/2312.14378v1
- Date: Fri, 22 Dec 2023 02:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:24:52.894121
- Title: Multimodal Attention Merging for Improved Speech Recognition and Audio
Event Classification
- Title(参考訳): 音声認識と音声イベント分類の改善を目的としたマルチモーダルアテンションマージ
- Authors: Anirudh S. Sundar, Chao-Han Huck Yang, David M. Chan, Shalini Ghosh,
Venkatesh Ravichandran, Phani Sankar Nidadavolu
- Abstract要約: マルチモーダルアテンション・マージ(MAM)
MAMは、ASR(Automatic Speech Recognition)モデルの相対的な単語誤り率(WER)を最大6.70%削減する。
Learnable-MAMは、注意行列をマージするためのデータ駆動のアプローチであり、さらに2.90%の相対的なASRのWERの減少と18.42%の相対的なAECの減少をもたらす。
- 参考スコア(独自算出の注目度): 20.206229252251717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large foundation models using self-supervised objectives on
unlabeled data, followed by fine-tuning on downstream tasks, has emerged as a
standard procedure. Unfortunately, the efficacy of this approach is often
constrained by both limited fine-tuning compute and scarcity in labeled
downstream data. We introduce Multimodal Attention Merging (MAM), an attempt
that facilitates direct knowledge transfer from attention matrices of models
rooted in high resource modalities, text and images, to those in
resource-constrained domains, speech and audio, employing a zero-shot paradigm.
MAM reduces the relative Word Error Rate (WER) of an Automatic Speech
Recognition (ASR) model by up to 6.70%, and relative classification error of an
Audio Event Classification (AEC) model by 10.63%. In cases where some
data/compute is available, we present Learnable-MAM, a data-driven approach to
merging attention matrices, resulting in a further 2.90% relative reduction in
WER for ASR and 18.42% relative reduction in AEC compared to fine-tuning.
- Abstract(参考訳): ラベルなしデータに対する自己教師付き目標を用いた大規模基礎モデルのトレーニングと下流タスクの微調整が標準手順として登場している。
残念ながら、このアプローチの有効性は、制限された微調整計算とラベル付き下流データの不足によって制約されることが多い。
マルチモーダル・アテンション・マージング(MAM)は、高リソース・モダリティ・テキスト・画像に根ざしたモデルの注意行列から、ゼロショット・パラダイムを用いたリソース制約領域・音声・音声への直接的な知識伝達を容易にする試みである。
MAMは、自動音声認識(ASR)モデルの相対的な単語誤り率(WER)を最大6.70%削減し、オーディオイベント分類(AEC)モデルの相対的な分類誤差を10.63%削減する。
データ/計算が利用可能である場合、注意行列をマージするためのデータ駆動アプローチであるLearnerable-MAMを提示し、その結果、ASRのWERがさらに2.90%減少し、AECの18.42%が微調整に比べて減少する結果となった。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - A Unified Model for Multi-class Anomaly Detection [33.534990722449066]
UniADは、統一されたフレームワークで複数のクラスに対して異常検出を行う。
MVTec-ADおよびCIFAR-10データセットを用いて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2022-06-08T06:05:09Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z) - Attention based on-device streaming speech recognition with large speech
corpus [16.702653972113023]
大規模(>10K時間)コーパスで学習したモノトニックチャンクワイド・アテンション(MoChA)モデルに基づいて,新しいオンデバイス自動音声認識(ASR)システムを提案する。
一般ドメインにおける単語認識率の約90%は、主にコネクショニスト時間分類器(CTC)とクロスエントロピー(CE)の併用訓練を用いて達成した。
オンデマンド適応では,MoChAモデルを統計的n-gramモデルに融合し,一般ドメインを含む対象ドメインの平均単語誤り率(WER)を36%向上させることができた。
論文 参考訳(メタデータ) (2020-01-02T04:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。