論文の概要: Text-only adaptation in LLM-based ASR through text denoising
- arxiv url: http://arxiv.org/abs/2601.20900v2
- Date: Fri, 30 Jan 2026 08:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.312913
- Title: Text-only adaptation in LLM-based ASR through text denoising
- Title(参考訳): LLMをベースとしたASRにおけるテキストのみの適応
- Authors: Sergio Burdisso, Esaú Villatoro-Tello, Andrés Carofilis, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas Stolcke,
- Abstract要約: テキストのみのデータを用いて、音声認識システムを新しいドメインに適応させることは、大きな課題だが未解明の課題である。
本稿では,テキスト記述タスクとして扱うことで,音声投影タスクをエミュレートする新しいテキストのみ適応手法を提案する。
私たちのソリューションは軽量で、アーキテクチャの変更やパラメータの追加は必要ありません。
- 参考スコア(独自算出の注目度): 14.200885240373509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting automatic speech recognition (ASR) systems based on large language models (LLMs) to new domains using text-only data is a significant yet underexplored challenge. Standard fine-tuning of the LLM on target-domain text often disrupts the critical alignment between speech and text modalities learned by the projector, degrading performance. We introduce a novel text-only adaptation method that emulates the audio projection task by treating it as a text denoising task. Our approach thus trains the LLM to recover clean transcripts from noisy inputs. This process effectively adapts the model to a target domain while preserving cross-modal alignment. Our solution is lightweight, requiring no architectural changes or additional parameters. Extensive evaluation on two datasets demonstrates up to 22.1% relative improvement, outperforming recent state-of-the-art text-only adaptation methods.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく自動音声認識システム(ASR)をテキストのみのデータを用いて新しいドメインに適応させることは、重要で未解明の課題である。
目標領域のテキストに対するLLMの標準的な微調整は、しばしばプロジェクタが学習した音声とテキストのモダリティの臨界アライメントを乱し、性能を低下させる。
本稿では,テキスト記述タスクとして扱うことで,音声投影タスクをエミュレートする新しいテキストのみ適応手法を提案する。
そこで本手法では, ノイズ入力からクリーンな書き起こしを復元するLLMを訓練する。
このプロセスは、クロスモーダルアライメントを保持しながら、モデルをターゲットドメインに効果的に適応させる。
私たちのソリューションは軽量で、アーキテクチャの変更やパラメータの追加は必要ありません。
2つのデータセットの大規模な評価は、22.1%の相対的な改善を示し、最近の最先端のテキストのみ適応法よりも優れている。
関連論文リスト
- Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs [22.8529107367745]
音声編集は、グローバルな知覚自然性を維持しながら、元の発話に対してきめ細かいセグメントレベルの操作を行うことで意味的インバージョンを実現する。
既存の検出研究は主に、明示的なスプライシングアーティファクトによる手作業による音声編集に焦点を当てており、新たなエンドツーエンドの音声編集技術に対処するのに苦労している。
本稿では,音声質問応答タスクとして定式化することによって,音声編集検出とコンテンツローカライゼーションを統一する,最初の大規模モデルフレームワークPELMを提案する。
論文 参考訳(メタデータ) (2026-01-29T09:39:28Z) - SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。
最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。
本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。
18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-10T02:50:20Z) - Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning [9.950088874229353]
音声を付加することなく、未ペアのターゲットドメインテキストを用いて、音声LLMのテキストのみを微調整する手法を提案する。
LibriSpeech,SlideSpeech,Messicalデータセットの実験により,本手法が競合認識性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-06T01:34:29Z) - Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning [12.676026149146772]
大言語モデル(LLM)は自動音声認識(ASR)を改良した
このようなASRをペアのプロンプトなしでテキストのみのデータに微調整することで、ドメイン固有の知識の有効性を低下させる可能性がある。
ドメイン固有のテキスト適応を強化する2段階のソフトプロンプト微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-12-09T20:22:06Z) - Task Arithmetic can Mitigate Synthetic-to-Real Gap in Automatic Speech Recognition [44.914084799875866]
タスクベクトル算術は音声認識における合成と現実のギャップを軽減するのに有効であることを示す。
提案手法であるSyn2REALは,ベースラインよりも単語誤り率を平均10.03%改善することを示す。
論文 参考訳(メタデータ) (2024-06-05T04:25:56Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。