論文の概要: LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models
- arxiv url: http://arxiv.org/abs/2506.04586v1
- Date: Thu, 05 Jun 2025 03:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.504995
- Title: LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models
- Title(参考訳): LESS:大規模言語モデルによる音声基礎モデルの半教師付き学習
- Authors: Wen Ding, Fan Qian,
- Abstract要約: そこで我々は,Large Language Models (LLMs) を利用した多用途フレームワークを導入し,実データから生成された擬似ラベルを補正する。
LESSフレームワーク内では、教師なしデータのASR(Automatic Speech Recognition)またはAST(Automatic Speech Translation)からの擬似ラベル付きテキストをLLMにより洗練する。
マンダリンASRとスペイン語と英語のASTの両タスクの実験は、LESSが3.77%の絶対的なWER削減を達成したことを示している。
- 参考スコア(独自算出の注目度): 3.5297361401370053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LESS (Large Language Model Enhanced Semi-supervised Learning), a versatile framework that leverages Large Language Models (LLMs) to correct pseudo labels generated from in-the-wild data. Within the LESS framework, pseudo-labeled text from Automatic Speech Recognition (ASR) or Automatic Speech Translation (AST) of the unsupervised data is refined by an LLM, and augmented by a data filtering strategy to optimize LLM knowledge transfer efficiency. Experiments on both Mandarin ASR and Spanish-to-English AST tasks show that LESS achieves a notable absolute WER reduction of 3.77% on the Wenet Speech test set, as well as BLEU scores of 34.0 and 64.7 on Callhome and Fisher test sets respectively. These results validate the adaptability of LESS across different languages, tasks, and domains. Ablation studies conducted with various LLMs and prompt configurations provide novel insights into leveraging LLM-derived knowledge for speech processing applications.
- Abstract(参考訳): LESS(Large Language Model Enhanced Semi-supervised Learning)は,Large Language Models (LLMs) を利用した多用途フレームワークである。
LESSフレームワーク内では、教師なしデータの音声認識(ASR)または自動音声翻訳(AST)からの擬似ラベル付きテキストをLLMにより洗練し、データフィルタリング戦略により拡張してLLM知識伝達効率を最適化する。
マンダリンASRとスペイン語のASTタスクの両方の実験では、LESSはウェネット音声テストセットで3.77%、BLEUスコアはコールホームテストセットで34.0、フィッシャーテストセットで64.7の顕著なWER低下を達成した。
これらの結果は、異なる言語、タスク、ドメインにわたるLESSの適応性を検証する。
様々なLLMを用いて行ったアブレーション研究は、LLM由来の知識を音声処理に適用するための新たな洞察を提供する。
関連論文リスト
- In-context Language Learning for Endangered Languages in Speech Recognition [15.294500162002345]
In-context Learning (ICL) を用いて,大規模言語モデル (LLM) が未知の低リソース言語を学習できるかどうかを検討する。
ICLは、これらの言語に特化して訓練された専用言語モデルに匹敵する、あるいは超越したASR性能を実現することができることを示す。
論文 参考訳(メタデータ) (2025-05-26T18:38:59Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Multilingual Speech Recognition using Knowledge Transfer across Learning
Processes [15.927513451432946]
実験結果から,WER全体の3.55%の相対的な減少が得られた。
LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
論文 参考訳(メタデータ) (2021-10-15T07:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。