論文の概要: Explore the Reinforcement Learning for the LLM based ASR and TTS system
- arxiv url: http://arxiv.org/abs/2509.18569v1
- Date: Tue, 23 Sep 2025 02:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.663958
- Title: Explore the Reinforcement Learning for the LLM based ASR and TTS system
- Title(参考訳): LLMに基づくASRとTSシステムのための強化学習の探索
- Authors: Changfeng Gao, Yabin Li, Keyu An, Zhifu Gao, Zhihao Du, Han Zhao, Xiangang Li,
- Abstract要約: 大規模言語モデル(LLM)は自動音声認識(ASR)と音声合成(TTS)システムにおいて重要な役割を果たしてきた。
本研究では,LLMに適した軽量強化学習フレームワークを提案する。
実験の結果, RL は ASR と TTS の両方の性能を大幅に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 22.18395435959418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have played an important role in automatic speech recognition (ASR) and text-to-speech (TTS) systems. While reinforcement learning (RL) has significantly enhanced LLM performance in text-based tasks, its application to ASR and TTS remains underexplored due to the complexity of training audio-based models. In this study, we propose a lightweight RL framework tailored for audio-based LLMs that can process audio inputs and generate audio outputs. Based on this framework, we evaluate the effectiveness of reinforcement learning on both ASR and TTS tasks. For the ASR task, we experiment with different rule-based reward functions within the Group Relative Policy Optimization (GRPO) framework and investigate the impact of RL data construction. For the TTS task, we compare GRPO with Differentiable Reward Optimization (DiffRO) and further combine the two approaches to achieve improved performance. Our experiments demonstrate that RL can significantly enhance the performance of both ASR and TTS systems, even with limited training data and a small number of optimization steps.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は自動音声認識 (ASR) や音声合成 (TTS) システムにおいて重要な役割を担っている。
強化学習(RL)はテキストベースタスクにおけるLLM性能を著しく向上させたが、音声ベースモデルの訓練が複雑になるため、ASRおよびTSへの適用は未検討のままである。
本研究では、音声入力を処理し、音声出力を生成するオーディオベースLLMに適した軽量なRLフレームワークを提案する。
この枠組みに基づいて,ASRタスクとTSタスクの強化学習の有効性を評価する。
ASRタスクでは、グループ相対政策最適化(GRPO)フレームワーク内で異なるルールベースの報酬関数を実験し、RLデータ構築の影響について検討する。
TTSタスクでは、GRPOと微分リワード最適化(DiffRO)を比較し、さらに2つのアプローチを組み合わせて性能改善を行う。
実験により,限られたトレーニングデータと少数の最適化ステップを用いても,RLはASRとTSシステムの両方の性能を大幅に向上させることができることが示された。
関連論文リスト
- FunAudio-ASR Technical Report [89.84148151617022]
本稿では,大容量データ,大容量モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFunAudio-ASRを提案する。
FunAudio-ASRは、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことで、実用的なデプロイメントに特に最適化されている。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Differentiable Reward Optimization for LLM based TTS system [46.658935067247945]
本稿では,ニューラルネットワークモデルに基づくテキスト音声合成(TTS)システムの性能向上を目的とした,新しい微分リワード最適化(DiffRO)手法を提案する。
従来の人間からのフィードバック(RLHF)からの強化学習とは対照的に、DiffROは合成音声に頼るのではなく、ニューラルトークンに基づいて報酬を直接計算する。
異なる視点からフィードバックを得られるマルチタスク報酬(MTR)モデルを導入し、命令を効果的に追従するシステムの能力を増強できることを示す。
論文 参考訳(メタデータ) (2025-07-08T11:57:16Z) - Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue [17.47550065558479]
強化学習(RL)はタスク指向対話(TOD)システムを強化するための強力なアプローチである。
既存のRL手法は主に生成タスクに焦点を合わせ、理解のために対話状態追跡(DST)を無視する傾向にある。
トークン生成全体でステップバイステップの報酬を導入し、RLを理解タスクと生成タスクの両方に拡張する。
論文 参考訳(メタデータ) (2024-06-20T16:15:40Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。