Fugu-MT 論文翻訳(概要): Tailored Design of Audio-Visual Speech Recognition Models using Branchformers

論文の概要: Tailored Design of Audio-Visual Speech Recognition Models using Branchformers

arxiv url: http://arxiv.org/abs/2407.06606v1
Date: Tue, 9 Jul 2024 07:15:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 18:56:02.956994
Title: Tailored Design of Audio-Visual Speech Recognition Models using Branchformers
Title（参考訳）: ブランチフォーマを用いた音声・視覚音声認識モデルの設計
Authors: David Gimeno-Gómez, Carlos-D. Martínez-Hinarejos,
Abstract要約: 本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advances in Audio-Visual Speech Recognition (AVSR) have led to unprecedented achievements in the field, improving the robustness of this type of system in adverse, noisy environments. In most cases, this task has been addressed through the design of models composed of two independent encoders, each dedicated to a specific modality. However, while recent works have explored unified audio-visual encoders, determining the optimal cross-modal architecture remains an ongoing challenge. Furthermore, such approaches often rely on models comprising vast amounts of parameters and high computational cost training processes. In this paper, we aim to bridge this research gap by introducing a novel audio-visual framework. Our proposed method constitutes, to the best of our knowledge, the first attempt to harness the flexibility and interpretability offered by encoder architectures, such as the Branchformer, in the design of parameter-efficient AVSR systems. To be more precise, the proposed framework consists of two steps: first, estimating audio- and video-only systems, and then designing a tailored audio-visual unified encoder based on the layer-level branch scores provided by the modality-specific models. Extensive experiments on English and Spanish AVSR benchmarks covering multiple data conditions and scenarios demonstrated the effectiveness of our proposed method. Results reflect how our tailored AVSR system is able to reach state-of-the-art recognition rates while significantly reducing the model complexity w.r.t. the prevalent approach in the field. Code and pre-trained models are available at https://github.com/david-gimeno/tailored-avsr.
Abstract（参考訳）: 近年のAVSR(Audio-Visual Speech Recognition)の進歩は、この分野において前例のない成果をもたらし、悪騒音環境におけるこの種のシステムの堅牢性を改善している。ほとんどの場合、このタスクは2つの独立したエンコーダで構成されたモデルの設計によって対処され、それぞれが特定のモダリティに特化している。しかし、近年の研究ではオーディオ・ビジュアル・エンコーダの統一化が検討されているが、最適なクロスモーダルアーキテクチャの決定は現在も進行中の課題である。さらに、そのようなアプローチは、大量のパラメータと高い計算コストのトレーニングプロセスを含むモデルに依存することが多い。本稿では,新しい視聴覚フレームワークを導入することで,この研究ギャップを埋めることを目的としている。提案手法は,パラメータ効率のよいAVSRシステムの設計において,ブランチフォーマなどのエンコーダアーキテクチャが提供する柔軟性と解釈性を活用するための最初の試みである。より正確に言うと、提案するフレームワークは、まず、オーディオとビデオのみのシステムを推定し、次に、モダリティ固有のモデルによって提供される階層レベルの分岐スコアに基づいて、調整されたオーディオと視覚の統一エンコーダを設計する。複数のデータ条件とシナリオをカバーする英語とスペイン語のAVSRベンチマークによる大規模な実験により,提案手法の有効性が示された。結果は、我々の調整されたAVSRシステムがどのように最先端の認識率に達することができるかを反映し、この分野における一般的なアプローチであるモデルの複雑さを著しく低減する。コードと事前トレーニングされたモデルはhttps://github.com/david-gimeno/tailored-avsr.comで入手できる。

関連論文リスト

ETTA: Elucidating the Design Space of Text-to-Audio Models [33.831803213869605]
対象ベンチマークに対するデータ,モデルアーキテクチャ,目標関数のトレーニング,およびサンプリング戦略の効果について検討する。 Eucidated Text-To-Audio (ETTA) と呼ばれる最良のモデルを提案する。 ETTAは、公開データでトレーニングされたベースラインよりも改善され、プロプライエタリデータでトレーニングされたモデルと競合する。
論文参考訳（メタデータ） (2024-12-26T21:13:12Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-08-30T17:29:25Z)
From Modular to End-to-End Speaker Diarization [3.079020586262228]
本稿では、VBxとして知られるxベクトル(ニューラルネットワークで得られた話者埋め込み)をクラスタリングするために使用されるベイズ隠れマルコフモデルに基づくシステムについて述べる。本稿では,話者の旋回や重なり合いの観点から,実際の会話に類似した合成データを生成する手法について述べる。本稿では,この「模擬会話」生成手法が,一般的なEENDのトレーニングにおいて,従来提案されていた「模擬混合」生成方法よりも優れた性能を実現する方法を示す。
論文参考訳（メタデータ） (2024-06-27T15:09:39Z)
Efficient infusion of self-supervised representations in Automatic Speech Recognition [1.2972104025246092]
Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。本稿では,SSLモデルからASRアーキテクチャへの表現を効率的に組み込むために,フレームワイズ付加と(2)クロスアテンション機構を用いる2つの簡単なアプローチを提案する。提案手法により,Librispeech と Tedlium のデータセットにおいて,より高速なトレーニングが可能となり,大幅な性能向上が期待できる。
論文参考訳（メタデータ） (2024-04-19T05:01:12Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Bring the Noise: Introducing Noise Robustness to Pretrained Automatic Speech Recognition [13.53738829631595]
本稿では,任意のエンコーダ・デコーダアーキテクチャに適用可能なデノナイズ機能を抽出する新しい手法を提案する。我々はノイズ音声データベース(NSD)で事前プロセッサを訓練し、ノイズ入力から雑音化されたスペクトルを再構成する。クリーンコーダは音声からノイズをフィルタリングすることができ、雑音条件下で下流モデルのワード誤り率(WER)を改善できることを示す。
論文参考訳（メタデータ） (2023-09-05T11:34:21Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文参考訳（メタデータ） (2022-08-20T06:46:55Z)
Wider or Deeper Neural Network Architecture for Acoustic Scene Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文参考訳（メタデータ） (2022-03-23T10:27:41Z)
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文参考訳（メタデータ） (2022-02-24T15:12:17Z)
Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。本手法は分類問題と回帰問題の両方に有効であることを示す。また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2021-05-19T13:30:34Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。