論文の概要: Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2603.04945v1
- Date: Thu, 05 Mar 2026 08:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.140726
- Title: Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition
- Title(参考訳): ハイブリッド音声認識のためのフェデレーション不均一言語モデル最適化
- Authors: Mengze Hong, Yi Gu, Di Jiang, Hanlin Gu, Chen Jason Zhang, Lu Wang, Zhiyang Su,
- Abstract要約: 本稿では,N-best音声認識リストを再構成する言語モデル(LM)のマッチング・アンド・マージパラダイムを提案する。
実験の結果、RMMAは平均的な文字誤り率とベースラインよりも優れた一般化を実現し、GMMAの最大7倍の速度で収束することがわかった。
- 参考スコア(独自算出の注目度): 24.410357716205677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training automatic speech recognition (ASR) models increasingly relies on decentralized federated learning to ensure data privacy and accessibility, producing multiple local models that require effective merging. In hybrid ASR systems, while acoustic models can be merged using established methods, the language model (LM) for rescoring the N-best speech recognition list faces challenges due to the heterogeneity of non-neural n-gram models and neural network models. This paper proposes a heterogeneous LM optimization task and introduces a match-and-merge paradigm with two algorithms: the Genetic Match-and-Merge Algorithm (GMMA), using genetic operations to evolve and pair LMs, and the Reinforced Match-and-Merge Algorithm (RMMA), leveraging reinforcement learning for efficient convergence. Experiments on seven OpenSLR datasets show RMMA achieves the lowest average Character Error Rate and better generalization than baselines, converging up to seven times faster than GMMA, highlighting the paradigm's potential for scalable, privacy-preserving ASR systems.
- Abstract(参考訳): 自動音声認識(ASR)モデルのトレーニングは、データプライバシとアクセシビリティを確保するために、分散化されたフェデレーション学習にますます依存し、効果的なマージを必要とする複数のローカルモデルを生成する。
ハイブリッドASRシステムでは、確立された手法を用いて音響モデルを統合することができるが、N-best音声認識リストを再構成する言語モデル(LM)は、非ニューラルn-gramモデルとニューラルネットワークモデルの不均一性のため、課題に直面している。
本稿では、遺伝子操作を用いてLMの進化とペア化を行うGMMA(Genematic Match-and-Merge Algorithm)と、強化学習を利用して効率よく収束するRMMA(Reinforced Match-and-Merge Algorithm)の2つのアルゴリズムでマッチングとマージのパラダイムを提案する。
7つのOpenSLRデータセットの実験では、RMMAはベースラインよりも平均的なキャラクタエラー率とより優れた一般化を実現し、GMMAの最大7倍の速度で収束し、スケーラブルでプライバシ保護されたASRシステムに対するパラダイムの可能性を強調している。
関連論文リスト
- Discovering Multiagent Learning Algorithms with Large Language Models [8.649235365712004]
我々は,大規模言語モデルを用いた進化的符号化エージェントであるAlphaEvolveを用いて,新しいマルチエージェント学習アルゴリズムを自動発見する。
ゲーム理論学習の2つの異なるパラダイムのための新しい変種を進化させることにより、この枠組みの一般化を実証する。
論文 参考訳(メタデータ) (2026-02-18T22:41:00Z) - Vision-Enhanced Large Language Models for High-Resolution Image Synthesis and Multimodal Data Interpretation [0.0]
本研究では,視覚拡張大言語モデル(LLM)と高度なトランスフォーマベースアーキテクチャを統合するための変換フレームワークを提案する。
提案モデルでは, ノイズとデータを線形経路に接続し, 効率的かつ高品質な生成を可能にする整流機構を組み込んだ。
このフレームワークは、合成画像とコヒーレントなマルチモーダル表現において、非平行な忠実性を達成する。
論文 参考訳(メタデータ) (2025-12-14T08:28:50Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Active RIS-aided EH-NOMA Networks: A Deep Reinforcement Learning
Approach [66.53364438507208]
アクティブな再構成可能なインテリジェントサーフェス(RIS)支援マルチユーザダウンリンク通信システムについて検討した。
非直交多重アクセス(NOMA)はスペクトル効率を向上させるために使用され、活性RISはエネルギー回収(EH)によって駆動される。
ユーザの動的通信状態を予測するために,高度なLSTMベースのアルゴリズムを開発した。
増幅行列と位相シフト行列RISを結合制御するためにDDPGに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:16:28Z) - DeepGMR: Learning Latent Gaussian Mixture Models for Registration [113.74060941036664]
ポイントクラウドの登録は、3Dコンピュータビジョン、グラフィックス、ロボット工学の基本的な問題である。
本稿では,最初の学習ベース登録法であるDeep Gaussian Mixture Registration(DeepGMR)を紹介する。
提案手法は,最先端の幾何学的および学習的登録手法と比較して,良好な性能を示す。
論文 参考訳(メタデータ) (2020-08-20T17:25:16Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。