Fugu-MT 論文翻訳(概要): Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification

論文の概要: Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification

arxiv url: http://arxiv.org/abs/2312.14378v2
Date: Fri, 9 Feb 2024 15:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 19:54:38.232315
Title: Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification
Title（参考訳）: 音声認識と音声イベント分類の改善を目的としたマルチモーダルアテンションマージ
Authors: Anirudh S. Sundar, Chao-Han Huck Yang, David M. Chan, Shalini Ghosh, Venkatesh Ravichandran, Phani Sankar Nidadavolu
Abstract要約: マルチモーダルアテンション・マージ(MAM) MAMは、ASR(Automatic Speech Recognition)モデルの相対的な単語誤り率(WER)を最大6.70%削減する。 Learnable-MAMは、注意行列をマージするためのデータ駆動のアプローチであり、さらに2.90%の相対的なASRのWERの減少と18.42%の相対的なAECの減少をもたらす。
参考スコア（独自算出の注目度）: 20.206229252251717
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training large foundation models using self-supervised objectives on unlabeled data, followed by fine-tuning on downstream tasks, has emerged as a standard procedure. Unfortunately, the efficacy of this approach is often constrained by both limited fine-tuning compute and scarcity in labeled downstream data. We introduce Multimodal Attention Merging (MAM), an attempt that facilitates direct knowledge transfer from attention matrices of models rooted in high resource modalities, text and images, to those in resource-constrained domains, speech and audio, employing a zero-shot paradigm. MAM reduces the relative Word Error Rate (WER) of an Automatic Speech Recognition (ASR) model by up to 6.70%, and relative classification error of an Audio Event Classification (AEC) model by 10.63%. In cases where some data/compute is available, we present Learnable-MAM, a data-driven approach to merging attention matrices, resulting in a further 2.90% relative reduction in WER for ASR and 18.42% relative reduction in AEC compared to fine-tuning.
Abstract（参考訳）: ラベルなしデータに対する自己教師付き目標を用いた大規模基礎モデルのトレーニングと下流タスクの微調整が標準手順として登場している。残念ながら、このアプローチの有効性は、制限された微調整計算とラベル付き下流データの不足によって制約されることが多い。マルチモーダル・アテンション・マージング(MAM)は、高リソース・モダリティ・テキスト・画像に根ざしたモデルの注意行列から、ゼロショット・パラダイムを用いたリソース制約領域・音声・音声への直接的な知識伝達を容易にする試みである。 MAMは、自動音声認識(ASR)モデルの相対的な単語誤り率(WER)を最大6.70%削減し、オーディオイベント分類(AEC)モデルの相対的な分類誤差を10.63%削減する。データ/計算が利用可能である場合、注意行列をマージするためのデータ駆動アプローチであるLearnerable-MAMを提示し、その結果、ASRのWERがさらに2.90%減少し、AECの18.42%が微調整に比べて減少する結果となった。

関連論文リスト

Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs [2.9506547907696006]
我々は,パフォーマンスへの影響を最小限に抑えつつ,記憶を小さくするプライバシー保護ファインチューニング技術であるRandomized Masked Fine-Tuning (RMFT)を紹介した。その結果,RMFTの総抽出速度は80.81%低下し,抽出速度は80.17%低下した。
論文参考訳（メタデータ） (2025-12-02T23:46:42Z)
Robust Multimodal Sentiment Analysis via Double Information Bottleneck [55.32835720742616]
マルチモーダル感情分析は様々な研究領域で注目されている。既存のアプローチでは、ノイズに汚染された単調なデータの学習が不十分である。本稿では,Double Information Bottleneck(DIB)戦略を提案する。
論文参考訳（メタデータ） (2025-11-03T10:52:45Z)
DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。 DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。 SLIMはセマンティックリークに特化した最初のデータセットである。
論文参考訳（メタデータ） (2025-10-16T17:39:21Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Selective Attention Merging for low resource tasks: A case study of Child ASR [14.178224954581069]
音声基礎モデル(SFM)は様々な音声タスクに優れるが、低リソースタスクのパフォーマンスは、限られた事前学習データによって妨げられる。本稿では,Selective Attention (SA) Mergeというタスクベクトルを選択的にマージし,低リソースタスクにおけるSFM性能を向上させる手法を提案する。 MySTデータベース上での実験では、単語の単語誤り率を最大14%削減し、既存のモデルのマージやデータ拡張技術よりも優れていた。
論文参考訳（メタデータ） (2025-01-14T22:27:48Z)
Mitigating Social Bias in Large Language Models: A Multi-Objective Approach within a Multi-Agent Framework [39.16337169372118]
大規模言語モデル(LLM)における社会的バイアスを軽減するために,マルチエージェントフレームワーク(MOMA)内の多目的アプローチを提案する。従来のデバイアス手法とは異なり、MOMAは下流タスクの精度を維持しながらバイアスを大幅に低減する。
論文参考訳（メタデータ） (2024-12-20T02:35:39Z)
Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文参考訳（メタデータ） (2024-11-26T00:44:37Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文参考訳（メタデータ） (2024-10-21T03:48:23Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
Improving a Named Entity Recognizer Trained on Noisy Data with a Few Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文参考訳（メタデータ） (2023-10-25T17:23:37Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文参考訳（メタデータ） (2023-06-03T13:11:37Z)
A Unified Model for Multi-class Anomaly Detection [33.534990722449066]
UniADは、統一されたフレームワークで複数のクラスに対して異常検出を行う。 MVTec-ADおよびCIFAR-10データセットを用いて,本アルゴリズムの評価を行った。
論文参考訳（メタデータ） (2022-06-08T06:05:09Z)
Statistical control for spatio-temporal MEG/EEG source imaging with desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文参考訳（メタデータ） (2020-09-29T21:17:16Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)
Attention based on-device streaming speech recognition with large speech corpus [16.702653972113023]
大規模(>10K時間)コーパスで学習したモノトニックチャンクワイド・アテンション(MoChA)モデルに基づいて,新しいオンデバイス自動音声認識(ASR)システムを提案する。一般ドメインにおける単語認識率の約90%は、主にコネクショニスト時間分類器(CTC)とクロスエントロピー(CE)の併用訓練を用いて達成した。オンデマンド適応では,MoChAモデルを統計的n-gramモデルに融合し,一般ドメインを含む対象ドメインの平均単語誤り率(WER)を36%向上させることができた。
論文参考訳（メタデータ） (2020-01-02T04:24:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。