論文の概要: Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2501.13375v1
- Date: Thu, 23 Jan 2025 04:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:55:04.401199
- Title: Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
- Title(参考訳): 音声・視覚・言語のマルチモーダルギャップをブリッジして音声強調
- Authors: Meng-Ping Lin, Jen-Cheng Hou, Chia-Wei Chen, Shao-Yi Chien, Jun-Cheng Chen, Xugang Lu, Yu Tsao,
- Abstract要約: 音声強調(SE)は,雑音の多い音声の品質向上を目的としている。
本稿では,SEのための新しいマルチモーダリティ学習フレームワークを提案する。
提案するAVSEシステムは,音声品質を著しく向上し,生成成果物を低減できることを示す。
- 参考スコア(独自算出の注目度): 36.136070412464214
- License:
- Abstract: Speech Enhancement (SE) aims to improve the quality of noisy speech. It has been shown that additional visual cues can further improve performance. Given that speech communication involves audio, visual, and linguistic modalities, it is natural to expect another performance boost by incorporating linguistic information. However, bridging the modality gaps to efficiently incorporate linguistic information, along with audio and visual modalities during knowledge transfer, is a challenging task. In this paper, we propose a novel multi-modality learning framework for SE. In the model framework, a state-of-the-art diffusion Model backbone is utilized for Audio-Visual Speech Enhancement (AVSE) modeling where both audio and visual information are directly captured by microphones and video cameras. Based on this AVSE, the linguistic modality employs a PLM to transfer linguistic knowledge to the visual acoustic modality through a process termed Cross-Modal Knowledge Transfer (CMKT) during AVSE model training. After the model is trained, it is supposed that linguistic knowledge is encoded in the feature processing of the AVSE model by the CMKT, and the PLM will not be involved during inference stage. We carry out SE experiments to evaluate the proposed model framework. Experimental results demonstrate that our proposed AVSE system significantly enhances speech quality and reduces generative artifacts, such as phonetic confusion compared to the state-of-the-art. Moreover, our visualization results demonstrate that our Cross-Modal Knowledge Transfer method further improves the generated speech quality of our AVSE system. These findings not only suggest that Diffusion Model-based techniques hold promise for advancing the state-of-the-art in AVSE but also justify the effectiveness of incorporating linguistic information to improve the performance of Diffusion-based AVSE systems.
- Abstract(参考訳): 音声強調(SE)は,雑音の多い音声の品質向上を目的としている。
追加の視覚的手がかりにより、パフォーマンスがさらに向上することが示されている。
音声コミュニケーションには音声,視覚,言語的モダリティが関係していることを考えると,言語情報を取り入れることで,さらなるパフォーマンス向上を期待することは当然である。
しかし、言語情報を効率的に組み込むためのモダリティギャップを埋めることと、知識伝達時の音声や視覚のモダリティは難しい課題である。
本稿では,SEのための新しい多モード学習フレームワークを提案する。
モデルフレームワークでは,マイクロホンやビデオカメラで音声情報と視覚情報を直接キャプチャするAVSE(Audio-Visual Speech Enhancement)モデリングに,最先端拡散モデルバックボーンを用いる。
このAVSEに基づいて、言語モダリティは、AVSEモデルトレーニング中に、Cross-Modal Knowledge Transfer (CMKT)と呼ばれるプロセスを通じて、言語知識を視覚音響モダリティに転送するためにPLMを使用する。
モデルが訓練された後、言語知識はCMKTによってAVSEモデルの特徴処理に符号化され、PLMは推論段階では関与しないと考えられる。
提案するモデルフレームワークを評価するために,SE実験を実施している。
実験の結果,提案するAVSEシステムは音声品質を著しく向上させ,音韻的混乱などの生成的アーチファクトの低減を図っている。
さらに,我々の可視化結果から,AVSEシステムで生成した音声品質をさらに向上させるクロスモーダル知識伝達法が実証された。
これらの結果は,拡散モデルに基づく手法がAVSEの最先端化を約束するだけでなく,拡散モデルに基づくAVSEシステムの性能向上のための言語情報の導入の有効性を正当化するものであることを示唆している。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文 参考訳(メタデータ) (2023-05-31T16:01:20Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。
本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文 参考訳(メタデータ) (2022-06-05T15:47:54Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-08-30T17:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。