論文の概要: Game-Oriented ASR Error Correction via RAG-Enhanced LLM
- arxiv url: http://arxiv.org/abs/2509.23630v1
- Date: Sun, 28 Sep 2025 04:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.338507
- Title: Game-Oriented ASR Error Correction via RAG-Enhanced LLM
- Title(参考訳): RAG強化LDMによるゲーム指向ASR誤差補正
- Authors: Yan Jiang, Yongle Luo, Qixian Zhou, Elvis S. Liu,
- Abstract要約: 一般的なASRシステムは、ショートフレーズ、ラピッドスピーチ、ジャーゴン、ノイズといったゲーム固有の課題に苦しむ。
本稿では,大規模言語モデル,RAG(Retrieval-Augmented Generation),データ拡張戦略を統合したGO-AECフレームワークを提案する。
GO-AECは文字誤り率を6.22%、文誤り率を29.71%削減し、ゲームシナリオにおけるASRの精度を大幅に改善した。
- 参考スコア(独自算出の注目度): 7.332228474263645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of multiplayer online games, real-time voice communication is essential for team coordination. However, general ASR systems struggle with gaming-specific challenges like short phrases, rapid speech, jargon, and noise, leading to frequent errors. To address this, we propose the GO-AEC framework, which integrates large language models, Retrieval-Augmented Generation (RAG), and a data augmentation strategy using LLMs and TTS. GO-AEC includes data augmentation, N-best hypothesis-based correction, and a dynamic game knowledge base. Experiments show GO-AEC reduces character error rate by 6.22% and sentence error rate by 29.71%, significantly improving ASR accuracy in gaming scenarios.
- Abstract(参考訳): マルチプレイヤーオンラインゲームの普及に伴い、リアルタイム音声通信はチームのコーディネーションに不可欠である。
しかし、一般的なASRシステムはショートフレーズ、ラピッドスピーチ、ジャーゴン、ノイズといったゲーム固有の課題に悩まされ、頻繁にエラーが発生する。
そこで本稿では,大規模言語モデルとRAG(Retrieval-Augmented Generation)を統合したGO-AECフレームワークと,LLMとTSを用いたデータ拡張戦略を提案する。
GO-AECはデータ拡張、N-best仮説に基づく修正、ダイナミックゲーム知識ベースを含む。
GO-AECは文字誤り率を6.22%、文誤り率を29.71%削減し、ゲームシナリオにおけるASRの精度を大幅に改善した。
関連論文リスト
- Large Language Models based ASR Error Correction for Child Conversations [29.60036844081859]
LLM(Large Language Models)は、ASR転写を改善することを約束している。
LLMはゼロショットのASR出力と微調整のCTCベースのASR出力の補正に有用である。
LLMが文脈情報を組み込む場合、ASRの性能を改善することは依然として困難である。
論文 参考訳(メタデータ) (2025-05-22T04:28:02Z) - ASR-EC Benchmark: Evaluating Large Language Models on Chinese ASR Error Correction [20.04650481108717]
本稿では,中国語におけるASR誤り訂正について検討する。
我々の知る限りでは、中国初のASRエラー訂正ベンチマークである。
近年の言語モデル(LLM)の進歩に触発されて,LLMのパワーを利用してASRの誤りを訂正する方法を検討する。
論文 参考訳(メタデータ) (2024-12-04T06:52:10Z) - Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。
我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。
我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文 参考訳(メタデータ) (2024-11-01T19:11:54Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition [46.438575751932866]
LipGERはノイズロスASRのための視覚的手がかりを利用するためのフレームワークである。
LipGERは単語誤り率を1.1%-49.2%の範囲で改善することを示す。
また、リップモーションキューを備えた仮説転写ペアを備えた大規模データセットであるLipHypをリリースする。
論文 参考訳(メタデータ) (2024-06-06T18:17:59Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。