論文の概要: Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model
- arxiv url: http://arxiv.org/abs/2306.00160v1
- Date: Wed, 31 May 2023 20:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:39:39.316831
- Title: Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model
- Title(参考訳): 軽量反復モデルを用いた雑音環境における音声音声分離
- Authors: H\'ector Martel, Julius Richter, Kai Li, Xiaolin Hu, Timo Gerkmann
- Abstract要約: 雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
- 参考スコア(独自算出の注目度): 35.171785986428425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Audio-Visual Lightweight ITerative model (AVLIT), an effective and
lightweight neural network that uses Progressive Learning (PL) to perform
audio-visual speech separation in noisy environments. To this end, we adopt the
Asynchronous Fully Recurrent Convolutional Neural Network (A-FRCNN), which has
shown successful results in audio-only speech separation. Our architecture
consists of an audio branch and a video branch, with iterative A-FRCNN blocks
sharing weights for each modality. We evaluated our model in a controlled
environment using the NTCD-TIMIT dataset and in-the-wild using a synthetic
dataset that combines LRS3 and WHAM!. The experiments demonstrate the
superiority of our model in both settings with respect to various audio-only
and audio-visual baselines. Furthermore, the reduced footprint of our model
makes it suitable for low resource applications.
- Abstract(参考訳): 本稿では,雑音環境下での音声-視覚的音声分離を行うために,プログレッシブラーニング(PL)を用いた効果的で軽量なニューラルネットワークであるAVLITを提案する。
この目的のために、A-FRCNN(Asynchronous Fully Recurrent Convolutional Neural Network)を導入し、音声のみの音声分離に成功した。
アーキテクチャはオーディオブランチとビデオブランチで構成され,A-FRCNNの繰り返しブロックが各モードの重みを共有する。
NTCD-TIMITデータセットと、RS3とWHAMを組み合わせた合成データセットを用いて、制御環境におけるモデルの評価を行った。
.
実験は,音声のみのベースラインと視聴覚のベースラインの両方において,モデルが優れていることを示す。
さらに,モデルのフットプリントが削減され,低リソースアプリケーションに適している。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - MTCRNN: A multi-scale RNN for directed audio texture synthesis [0.0]
本稿では,異なる抽象レベルで訓練された繰り返しニューラルネットワークと,ユーザ指向の合成を可能にする条件付け戦略を組み合わせたテクスチャのモデリング手法を提案する。
モデルの性能を様々なデータセットで実証し、その性能を様々なメトリクスで検証し、潜在的なアプリケーションについて議論する。
論文 参考訳(メタデータ) (2020-11-25T09:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。