論文の概要: Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2501.13375v1
- Date: Thu, 23 Jan 2025 04:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:17:07.17553
- Title: Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
- Title(参考訳): 音声・視覚・言語のマルチモーダルギャップをブリッジして音声強調
- Authors: Meng-Ping Lin, Jen-Cheng Hou, Chia-Wei Chen, Shao-Yi Chien, Jun-Cheng Chen, Xugang Lu, Yu Tsao,
- Abstract要約: 音声強調(SE)は,雑音の多い音声の品質向上を目的としている。
本稿では,SEのための新しいマルチモーダリティ学習フレームワークを提案する。
提案するAVSEシステムは,音声品質を著しく向上し,生成成果物を低減できることを示す。
- 参考スコア(独自算出の注目度): 36.136070412464214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Enhancement (SE) aims to improve the quality of noisy speech. It has been shown that additional visual cues can further improve performance. Given that speech communication involves audio, visual, and linguistic modalities, it is natural to expect another performance boost by incorporating linguistic information. However, bridging the modality gaps to efficiently incorporate linguistic information, along with audio and visual modalities during knowledge transfer, is a challenging task. In this paper, we propose a novel multi-modality learning framework for SE. In the model framework, a state-of-the-art diffusion Model backbone is utilized for Audio-Visual Speech Enhancement (AVSE) modeling where both audio and visual information are directly captured by microphones and video cameras. Based on this AVSE, the linguistic modality employs a PLM to transfer linguistic knowledge to the visual acoustic modality through a process termed Cross-Modal Knowledge Transfer (CMKT) during AVSE model training. After the model is trained, it is supposed that linguistic knowledge is encoded in the feature processing of the AVSE model by the CMKT, and the PLM will not be involved during inference stage. We carry out SE experiments to evaluate the proposed model framework. Experimental results demonstrate that our proposed AVSE system significantly enhances speech quality and reduces generative artifacts, such as phonetic confusion compared to the state-of-the-art. Moreover, our visualization results demonstrate that our Cross-Modal Knowledge Transfer method further improves the generated speech quality of our AVSE system. These findings not only suggest that Diffusion Model-based techniques hold promise for advancing the state-of-the-art in AVSE but also justify the effectiveness of incorporating linguistic information to improve the performance of Diffusion-based AVSE systems.
- Abstract(参考訳): 音声強調(SE)は,雑音の多い音声の品質向上を目的としている。
追加の視覚的手がかりにより、パフォーマンスがさらに向上することが示されている。
音声コミュニケーションには音声,視覚,言語的モダリティが関係していることを考えると,言語情報を取り入れることで,さらなるパフォーマンス向上を期待することは当然である。
しかし、言語情報を効率的に組み込むためのモダリティギャップを埋めることと、知識伝達時の音声や視覚のモダリティは難しい課題である。
本稿では,SEのための新しい多モード学習フレームワークを提案する。
モデルフレームワークでは,マイクロホンやビデオカメラで音声情報と視覚情報を直接キャプチャするAVSE(Audio-Visual Speech Enhancement)モデリングに,最先端拡散モデルバックボーンを用いる。
このAVSEに基づいて、言語モダリティは、AVSEモデルトレーニング中に、Cross-Modal Knowledge Transfer (CMKT)と呼ばれるプロセスを通じて、言語知識を視覚音響モダリティに転送するためにPLMを使用する。
モデルが訓練された後、言語知識はCMKTによってAVSEモデルの特徴処理に符号化され、PLMは推論段階では関与しないと考えられる。
提案するモデルフレームワークを評価するために,SE実験を実施している。
実験の結果,提案するAVSEシステムは音声品質を著しく向上させ,音韻的混乱などの生成的アーチファクトの低減を図っている。
さらに,我々の可視化結果から,AVSEシステムで生成した音声品質をさらに向上させるクロスモーダル知識伝達法が実証された。
これらの結果は,拡散モデルに基づく手法がAVSEの最先端化を約束するだけでなく,拡散モデルに基づくAVSEシステムの性能向上のための言語情報の導入の有効性を正当化するものであることを示唆している。
関連論文リスト
- Thinking in Directivity: Speech Large Language Model for Multi-Talker Directional Speech Recognition [34.08564665311891]
指向性SpeechLlamaは、指向性音声認識を実現するために、スマートグラスのマイクロホンアレイを活用する新しいアプローチである。
実験結果から,提案した指向性SpeechLlamaはテキストキューと空間音声の関係を効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2025-06-17T20:49:41Z) - Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion [12.212623921747264]
トランスフォーマーベースのマルチモーダルモデルは、産業規模のレコメンデーション、検索、広告システムで広く使われている。
AL効率とVLMAEを用いた視覚言語モデリングを実現するため,kNNを用いたLatent Space Broadening (LSB)を提案する。
このシステムはプロダクションシステムにデプロイされ、大きなビジネス上の利益をもたらしました。
論文 参考訳(メタデータ) (2025-03-21T21:55:05Z) - Linguistic Knowledge Transfer Learning for Speech Enhancement [29.191204225828354]
言語知識は、言語理解において重要な役割を果たす。
ほとんどの音声強調法は、雑音とクリーンな音声のマッピング関係を学習するために音響的特徴に依存している。
本稿では,言語知識をSEモデルに統合するクロスモーダル・ナレッジ・トランスファー(CMKT)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T09:00:18Z) - Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models [20.210120763433167]
本稿では,OLLMの視覚テキストコンポーネントが教師として,視覚音声コンポーネントが学生として機能する自己知識蒸留(Self-KD)トレーニング手法を提案する。
実験結果から,自己KDはOLLMの視覚音響能力を高める有効な方法であることが示された。
論文 参考訳(メタデータ) (2025-02-27T02:19:09Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。
本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文 参考訳(メタデータ) (2022-06-05T15:47:54Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-08-30T17:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。