論文の概要: Linguistic Knowledge Transfer Learning for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2503.07078v1
- Date: Mon, 10 Mar 2025 09:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:04.337538
- Title: Linguistic Knowledge Transfer Learning for Speech Enhancement
- Title(参考訳): 音声強調のための言語的知識伝達学習
- Authors: Kuo-Hsuan Hung, Xugang Lu, Szu-Wei Fu, Huan-Hsin Tseng, Hsin-Yi Lin, Chii-Wann Lin, Yu Tsao,
- Abstract要約: 言語知識は、言語理解において重要な役割を果たす。
ほとんどの音声強調法は、雑音とクリーンな音声のマッピング関係を学習するために音響的特徴に依存している。
本稿では,言語知識をSEモデルに統合するクロスモーダル・ナレッジ・トランスファー(CMKT)学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.191204225828354
- License:
- Abstract: Linguistic knowledge plays a crucial role in spoken language comprehension. It provides essential semantic and syntactic context for speech perception in noisy environments. However, most speech enhancement (SE) methods predominantly rely on acoustic features to learn the mapping relationship between noisy and clean speech, with limited exploration of linguistic integration. While text-informed SE approaches have been investigated, they often require explicit speech-text alignment or externally provided textual data, constraining their practicality in real-world scenarios. Additionally, using text as input poses challenges in aligning linguistic and acoustic representations due to their inherent differences. In this study, we propose the Cross-Modality Knowledge Transfer (CMKT) learning framework, which leverages pre-trained large language models (LLMs) to infuse linguistic knowledge into SE models without requiring text input or LLMs during inference. Furthermore, we introduce a misalignment strategy to improve knowledge transfer. This strategy applies controlled temporal shifts, encouraging the model to learn more robust representations. Experimental evaluations demonstrate that CMKT consistently outperforms baseline models across various SE architectures and LLM embeddings, highlighting its adaptability to different configurations. Additionally, results on Mandarin and English datasets confirm its effectiveness across diverse linguistic conditions, further validating its robustness. Moreover, CMKT remains effective even in scenarios without textual data, underscoring its practicality for real-world applications. By bridging the gap between linguistic and acoustic modalities, CMKT offers a scalable and innovative solution for integrating linguistic knowledge into SE models, leading to substantial improvements in both intelligibility and enhancement performance.
- Abstract(参考訳): 言語知識は、言語理解において重要な役割を果たす。
雑音環境における音声知覚に不可欠な意味的・統語的文脈を提供する。
しかし、ほとんどのSE法は、雑音とクリーンな音声のマッピング関係を学習するために音響的特徴に大きく依存しており、言語統合の探究は限られている。
テキストインフォームドSEアプローチは研究されているが、しばしば明示的な音声テキストアライメントや外部から提供されるテキストデータを必要とする。
さらに、テキストを入力として使用すると、言語的および音響的表現が固有の相違により整合する際の課題が生じる。
本研究では,事前学習された大規模言語モデル(LLM)を利用して,テキスト入力やLLMを必要とせずに,SEモデルに言語知識を注入するCross-Modality Knowledge Transfer (CMKT)学習フレームワークを提案する。
さらに,知識伝達を改善するための誤調整戦略を導入する。
この戦略は、制御された時間シフトを適用し、モデルがより堅牢な表現を学ぶように促す。
CMKTは、様々なSEアーキテクチャやLLM埋め込みのベースラインモデルよりも一貫して優れており、異なる構成への適応性を強調している。
さらに、マンダリンと英語のデータセットの結果は、様々な言語条件にまたがってその有効性を確認し、その堅牢性をさらに検証した。
さらに、CMKTはテキストデータのないシナリオでも有効であり、実世界のアプリケーションにおいて実用性を強調している。
言語的モダリティと音響的モダリティのギャップを埋めることによって、CMKTは、言語知識をSEモデルに統合するためのスケーラブルで革新的なソリューションを提供する。
関連論文リスト
- DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Improving Large Language Model (LLM) fidelity through context-aware grounding: A systematic approach to reliability and veracity [0.0]
大規模言語モデル(LLM)は、自然言語処理(NLP)アプリケーションにおいて、ますます高度でユビキタスなものになりつつある。
本稿では,テクストモデルにおける文脈的接地のための新しい枠組みについて述べる。
本研究は, 医療, 法制度, 社会サービスなどのセンシティブな分野におけるLCMの展開に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-08-07T18:12:02Z) - Token-Level Contrastive Learning with Modality-Aware Prompting for Multimodal Intent Recognition [29.523405624632378]
マルチモーダルな意図認識の課題に対処するために,TCL-MAP(Modality-Aware prompting)を用いたトークンレベルのコントラスト学習手法を提案する。
提案したTCLは,モダリティを意識したプロンプトとグラウンドの真理ラベルに基づいて,拡張サンプルを構築し,NT-Xent損失をラベルトークンに用いた。
本手法は最先端の手法と比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2023-12-22T13:03:23Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - CMSBERT-CLR: Context-driven Modality Shifting BERT with Contrastive
Learning for linguistic, visual, acoustic Representations [0.7081604594416336]
言語・視覚・音響表現のためのコントラスト学習を用いたコンテキスト駆動型モダリティシフトBERT(CMSBERT-CLR)を提案する。
CMSBERT-CLRは、文脈全体の非言語的・言語的な情報を取り入れ、コントラスト学習を通じてより効果的にモダリティを整合させる。
実験では,本手法が最先端の成果をもたらすことを実証した。
論文 参考訳(メタデータ) (2022-08-21T08:21:43Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。