論文の概要: Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs
- arxiv url: http://arxiv.org/abs/2409.16005v1
- Date: Tue, 24 Sep 2024 12:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 07:42:12.590120
- Title: Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs
- Title(参考訳): ブリジング音声とテキスト:LLMにおけるピンと文字の事前学習によるASRの強化
- Authors: Yang Yuhang, Peng Yizhou, Eng Siong Chng, Xionghu Zhong,
- Abstract要約: そこで本研究では,Pinyinの埋め込みシーケンス上で,対応する漢字を生成するための大規模言語モデル(LLM)の事前学習を提案する。
このステップにより、LLMは実際の音声データに遭遇する前に発音特徴からテキストを生成することができる。
AISHELL-1コーパスでは,ベースラインに比べてASRタスクが9.5%改善した。
- 参考スコア(独自算出の注目度): 20.97172337899685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of large language models (LLMs) with pre-trained speech models has opened up new avenues in automatic speech recognition (ASR). While LLMs excel in multimodal understanding tasks, effectively leveraging their capabilities for ASR remains a significant challenge. This paper presents a novel training approach to enhance LLM performance in ASR tasks. We propose pre-training LLMs on Pinyin embedding sequences, which represent pronunciation features, to generate corresponding Chinese characters. This step enables the LLM to adapt to generating text from pronunciation features before encountering real speech data. Furthermore, we fine-tune the LoRA parameters to enhance the LLM's understanding of speech modality information. In AISHELL-1 corpus, our approach yields a 9.5% relative improvement in ASR tasks compared to the baseline without Pinyi-to-Character pre-training. Additionally, incorporating auxiliary text data for Pinyi-to-Character pre-training further boosts performance, achieving a 19.0% relative improvement.
- Abstract(参考訳): 大規模言語モデル(LLM)と事前訓練された音声モデルの統合により,音声認識(ASR)の新たな道が開かれた。
LLMはマルチモーダル理解タスクに優れていますが、それらの能力をASRに効果的に活用することは大きな課題です。
本稿では,ASRタスクにおけるLLM性能向上のための新しいトレーニング手法を提案する。
発音特徴を表すPinyin埋め込み配列上のLLMの事前学習を行い、対応する漢字を生成する。
このステップにより、LLMは実際の音声データに遭遇する前に発音特徴からテキストを生成することができる。
さらに、LLMの音声モダリティ情報の理解を高めるために、LoRAパラメータを微調整する。
AISHELL-1 corpus では,Pinyi-to-Character の事前訓練を行わないベースラインに比べて,ASR タスクの 9.5% の相対的な改善が得られた。
さらに、Pinyi-to-Characterの事前トレーニングのための補助的なテキストデータの導入により、パフォーマンスがさらに向上し、19.0%の相対的な改善が達成される。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation [15.520180125182756]
近年,大規模言語モデル(LLM)への音声情報統合の進歩により,音声認識(ASR)の精度が大幅に向上した。
既存の手法はアクセントのような様々な音響条件下での音声エンコーダの能力に制約されることが多い。
LA-RAGは、LLMベースのASRのための新しいRAGパラダイムである。
論文 参考訳(メタデータ) (2024-09-13T07:28:47Z) - An End-to-End Speech Summarization Using Large Language Model [7.562198375754054]
音声要約(SSum)は、音声コンテンツから人間に似たテキスト要約を生成することを目的としている。
大規模言語モデル(LLM)とマルチモーダル情報融合の研究は、新たな洞察をもたらした。
本稿では、Q-Formerを音声テキストモダリティのコネクタとして利用するエンドツーエンドのSSumモデルを提案する。
論文 参考訳(メタデータ) (2024-07-02T07:22:57Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。