論文の概要: Rethinking Entropy Allocation in LLM-based ASR: Understanding the Dynamics between Speech Encoders and LLMs
- arxiv url: http://arxiv.org/abs/2604.08003v1
- Date: Thu, 09 Apr 2026 09:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.826301
- Title: Rethinking Entropy Allocation in LLM-based ASR: Understanding the Dynamics between Speech Encoders and LLMs
- Title(参考訳): LLMに基づくASRにおけるエントロピー配置の再考:LLMと音声エンコーダのダイナミクスの理解
- Authors: Yuan Xie, Jiaqi Song, Guang Qiu, Xianliang Wang, Ming Lei, Jie Gao, Jie Wu,
- Abstract要約: 学習パラダイムが音声エンコーダとLLM間のエントロピー削減をどのように割り当てるかを特徴付けるための3つの指標を提案する。
本稿では,パラメータ効率とロバストネス幻覚を最適化した,能力境界認識に基づく多段階学習戦略を提案する。
マンダリンと英語のベンチマーク実験により,2.3Bパラメータのみを用いた最先端モデルとの競合性能が得られた。
- 参考スコア(独自算出の注目度): 17.167595029948576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating large language models (LLMs) into automatic speech recognition (ASR) has become a dominant paradigm. Although recent LLM-based ASR models have shown promising performance on public benchmarks, it remains challenging to balance recognition quality with latency and overhead, while hallucinations further limit real-world deployment. In this study, we revisit LLM-based ASR from an entropy allocation perspective and introduce three metrics to characterize how training paradigms allocate entropy reduction between the speech encoder and the LLM. To remedy entropy-allocation inefficiencies in prevailing approaches, we propose a principled multi-stage training strategy grounded in capability-boundary awareness, optimizing parameter efficiency and hallucination robustness. Specifically, we redesign the pretraining strategy to alleviate the speech-text modality gap, and further introduce an iterative asynchronous SFT stage between alignment and joint SFT to preserve functional decoupling and constrain encoder representation drift. Experiments on Mandarin and English benchmarks show that our method achieves competitive performance with state-of-the-art models using only 2.3B parameters, while also effectively mitigating hallucinations through our decoupling-oriented design.
- Abstract(参考訳): 大規模言語モデル(LLM)を自動音声認識(ASR)に統合することが主流となっている。
最近のLSMベースのASRモデルは、公開ベンチマークで有望なパフォーマンスを示しているが、認識品質とレイテンシとオーバーヘッドのバランスをとることは依然として困難であり、幻覚は現実世界のデプロイメントをさらに制限している。
本研究では,LLM に基づく ASR をエントロピー割り当ての観点から再検討し,訓練パラダイムが音声エンコーダと LLM 間のエントロピー削減をどのように割り当てるかを特徴付ける3つの指標を提案する。
エントロピー・アロケーションの非効率性を改善するために,機能境界認識に基づく多段階学習手法を提案し,パラメータ効率の最適化と幻覚のロバスト性について検討した。
具体的には、音声とテキストのモダリティギャップを軽減するための事前学習戦略を再設計し、さらに、機能的デカップリングと制約エンコーダ表現のドリフトを維持するために、アライメントと関節SFTの間に反復非同期SFTステージを導入する。
マンダリンとイングリッシュのベンチマーク実験により,2.3Bパラメータのみを用いた最先端モデルとの競合性能を実現するとともに,デカップリング指向の設計による幻覚を効果的に緩和することを示した。
関連論文リスト
- Lightweight Adaptation for LLM-based Technical Service Agent: Latent Logic Augmentation and Robust Noise Reduction [15.613490987782264]
複雑な技術サービスドメインにおける大規模言語モデルの適用は、人間の実演において明確な認知的連鎖が欠如していることによって制約される。
本稿では,表層監視と潜時決定ロジックのギャップを埋めるために,プランニング・アウェア・トラジェクトリ・モデリングと決定推論の強化を導入する。
多様な応答を検証してノイズを低減するために,2重フィルタ方式により複数の地中真実データセットを構築した。
論文 参考訳(メタデータ) (2026-03-18T05:01:17Z) - Multi-Reward GRPO for Stable and Prosodic Single-Codebook TTS LLMs at Scale [12.626090218930578]
シングルコードブックのテキスト音声モデルは不安定な韻律、話者のドリフト、劣化した自然性を示すことが多い。
単行本TS LLMのトークン生成ポリシーを直接最適化するマルチリワードグループ相対ポリシー最適化フレームワークを提案する。
提案手法は, 単行本TS LLMにおける韻律安定性, 話者類似性, 音声の自然度を連続的に向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T10:50:17Z) - Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。
CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。
拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文 参考訳(メタデータ) (2025-11-26T09:49:48Z) - Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models [34.15708407614003]
大規模言語モデル(LLM)は、最近、複数のモーダルをまたいだ音声認識において、印象的な成果を上げている。
Omni-AVSRは,マルチグラニュラリティ学習とパラメータ効率の両立を両立した統合型音声視覚LLMである。
LRS2 と LRS3 の実験では、Omni-AVSR は最先端のベースラインと同等または優れた精度で達成されている。
論文 参考訳(メタデータ) (2025-11-10T16:03:44Z) - Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Transformer-based Scalable Beamforming Optimization via Deep Residual Learning [12.79709425087431]
大規模MU-MISOチャネルにおけるダウンリンクビームフォーミングのための教師なしディープラーニングフレームワーク。
モデルはオフラインでトレーニングされ、動的通信環境における軽量フィードフォワード計算によるリアルタイム推論を可能にする。
論文 参考訳(メタデータ) (2025-10-15T01:43:51Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。