論文の概要: Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.05671v1
- Date: Fri, 06 Jun 2025 01:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.280873
- Title: Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning
- Title(参考訳): テキスト・オン・ファイン・チューニングによるLLMの低リソース領域適応
- Authors: Yangui Fang, Jing Peng, Xu Li, Yu Xi, Chengwei Zhang, Guohui Zhong, Kai Yu,
- Abstract要約: 音声を付加することなく、未ペアのターゲットドメインテキストを用いて、音声LLMのテキストのみを微調整する手法を提案する。
LibriSpeech,SlideSpeech,Messicalデータセットの実験により,本手法が競合認識性能を実現することを示す。
- 参考スコア(独自算出の注目度): 9.950088874229353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in automatic speech recognition (ASR) have combined speech encoders with large language models (LLMs) through projection, forming Speech LLMs with strong performance. However, adapting them to new domains remains challenging, especially in low-resource settings where paired speech-text data is scarce. We propose a text-only fine-tuning strategy for Speech LLMs using unpaired target-domain text without requiring additional audio. To preserve speech-text alignment, we introduce a real-time evaluation mechanism during fine-tuning. This enables effective domain adaptation while maintaining source-domain performance. Experiments on LibriSpeech, SlideSpeech, and Medical datasets show that our method achieves competitive recognition performance, with minimal degradation compared to full audio-text fine-tuning. It also improves generalization to new domains without catastrophic forgetting, highlighting the potential of text-only fine-tuning for low-resource domain adaptation of ASR.
- Abstract(参考訳): 近年の音声認識 (ASR) の進歩は, 音声エンコーダと大言語モデル (LLM) をプロジェクションにより組み合わせ, 高い性能で音声LLMを形成する。
しかし、特にペア音声テキストデータが不足している低リソース環境では、これらを新しいドメインに適用することは依然として困難である。
音声を付加することなく、未ペアのターゲットドメインテキストを用いて音声LLMのテキストのみを微調整する手法を提案する。
音声テキストのアライメントを維持するために,微調整時のリアルタイム評価機構を導入する。
これにより、ソースドメインのパフォーマンスを維持しながら、効果的なドメイン適応が可能になる。
LibriSpeech,SlideSpeech,Messicalデータセットを用いた実験により,本手法は完全音声テキストの微調整に比べて最小限の劣化で,競合認識性能を実現することが示された。
また、ASRの低リソース領域適応のためのテキストのみの微調整の可能性を強調し、破滅的な忘れをせずに新しいドメインへの一般化も改善する。
関連論文リスト
- Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning [12.676026149146772]
大言語モデル(LLM)は自動音声認識(ASR)を改良した
このようなASRをペアのプロンプトなしでテキストのみのデータに微調整することで、ドメイン固有の知識の有効性を低下させる可能性がある。
ドメイン固有のテキスト適応を強化する2段階のソフトプロンプト微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-12-09T20:22:06Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文 参考訳(メタデータ) (2024-09-25T20:59:12Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Corpus Synthesis for Zero-shot ASR domain Adaptation using Large
Language Models [19.726699481313194]
そこで本稿では,新たなターゲットドメインにASRモデルを適用するための新たな戦略を提案する。
SLURPデータセットを用いた実験により,提案手法は未知のターゲットドメインに対して平均相対単語誤り率を28%向上させることができた。
論文 参考訳(メタデータ) (2023-09-18T15:43:08Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Distribution augmentation for low-resource expressive text-to-speech [18.553812159109253]
本稿では,TTS(text-to-speech)のための新しいデータ拡張手法を提案する。
追加データを必要とすることなく、新たな(テキスト、オーディオ)トレーニング例を生成することができる。
論文 参考訳(メタデータ) (2022-02-13T21:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。