論文の概要: Listening, Imagining \& Refining: A Heuristic Optimized ASR Correction Framework with LLMs
- arxiv url: http://arxiv.org/abs/2509.15095v1
- Date: Thu, 18 Sep 2025 15:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.313443
- Title: Listening, Imagining \& Refining: A Heuristic Optimized ASR Correction Framework with LLMs
- Title(参考訳): リスニング, Imagining \& Refining: LLMを用いたヒューリスティック最適化ASR補正フレームワーク
- Authors: Yutong Liu, Ziyue Zhang, Yongbin Yu, Xiangxiang Wang, Yuqing Cai, Nyima Tashi,
- Abstract要約: LIR-ASR は "Listening-Imagining-Refining" 戦略を適用し、音素の変種を生成し、文脈でそれらを精製する。
英語と中国語の両方のASR出力の実験では、LIR-ASR平均は最大1.5ポイントのCER/WERの減少を達成している。
- 参考スコア(独自算出の注目度): 13.256788199813817
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems remain prone to errors that affect downstream applications. In this paper, we propose LIR-ASR, a heuristic optimized iterative correction framework using LLMs, inspired by human auditory perception. LIR-ASR applies a "Listening-Imagining-Refining" strategy, generating phonetic variants and refining them in context. A heuristic optimization with finite state machine (FSM) is introduced to prevent the correction process from being trapped in local optima and rule-based constraints help maintain semantic fidelity. Experiments on both English and Chinese ASR outputs show that LIR-ASR achieves average reductions in CER/WER of up to 1.5 percentage points compared to baselines, demonstrating substantial accuracy gains in transcription.
- Abstract(参考訳): 自動音声認識(ASR)システムは、下流のアプリケーションに影響を及ぼすエラーを起こしやすい。
本稿では,人間の聴覚知覚に触発された LLM を用いたヒューリスティック最適化反復補正フレームワーク LIR-ASR を提案する。
LIR-ASR は "Listening-Imagining-Refining" 戦略を適用し、音素の変種を生成し、文脈でそれらを精製する。
有限状態機械(FSM)によるヒューリスティックな最適化を導入し、局所最適法則と規則に基づく制約が意味的忠実性を維持するのに役立つ。
英語と中国語の両方のASR出力の実験では、LIR-ASRはベースラインと比較して最大1.5ポイントのCER/WERを平均で減少させ、転写の精度が著しく向上した。
関連論文リスト
- OAT-Rephrase: Optimization-Aware Training Data Rephrasing for Zeroth-Order LLM Fine-Tuning [25.76983801886268]
本稿では,OAT-Rephraseについて紹介する。
OAT-RephraseはMeZOの微調整性能を常に改善することを示す。
提案手法は,ゼロ階調音システムにおける再利用可能な低オーバヘッド向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-06-10T02:53:04Z) - Effective Inference-Free Retrieval for Learned Sparse Representations [19.54810957623511]
Learned Sparse Retrieval (LSR)は、学習された単語の袋にテキストをエンコードするために訓練済みの言語モデルを利用する効果的なIRアプローチである。
近年,新たな効率的な逆インデックスベース検索エンジンが提案されており,LSRモデルのトレーニングにおいて正規化の役割が変化したのか,という自然な疑問が投げかけられている。
より効率的なLSRエンコーダを生成するために、正規化を緩和できることが示される。
論文 参考訳(メタデータ) (2025-04-30T09:10:46Z) - RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference Optimization [53.63439735067081]
大規模言語モデル(LLM)は目覚ましい性能を達成したが、高い計算コストとレイテンシに直面している。
Retrieval-augmented Generation (RAG) は、外部知識を統合するのに役立つが、不完全な検索は、SLMを誤解させるノイズを引き起こす可能性がある。
我々は、Margin-aware Preference Optimizationを通じて、SLMのための堅牢なRAGフレームワークであるRoseRAGを提案する。
論文 参考訳(メタデータ) (2025-02-16T04:56:53Z) - GEC-RAG: Improving Generative Error Correction via Retrieval-Augmented Generation for Automatic Speech Recognition Systems [8.669397145785942]
ペルシャ語のような低リソース領域のASR精度を向上させるために,検索型RAG(Retrieval-Augmented Generation)による生成誤差補正を提案する。
GEC-RAGは、TF-IDF(Term Frequency-Inverse Document Frequency)尺度を用いて、ASRの転写と語彙的に類似した例を検索する。
論文 参考訳(メタデータ) (2025-01-18T11:53:22Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition [46.438575751932866]
LipGERはノイズロスASRのための視覚的手がかりを利用するためのフレームワークである。
LipGERは単語誤り率を1.1%-49.2%の範囲で改善することを示す。
また、リップモーションキューを備えた仮説転写ペアを備えた大規模データセットであるLipHypをリリースする。
論文 参考訳(メタデータ) (2024-06-06T18:17:59Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Correction Focused Language Model Training for Speech Recognition [14.246583065323192]
本稿では,ASRの誤り語を優先順位付けすることを目的とした,新しい修正型LMトレーニング手法を提案する。
単語レベルのASR誤認度スコアを定義し、従来の単語分布として形成し、LMトレーニングをガイドする。
従来のLMと比較して、修正中心のトレーニングは十分なテキストシナリオにおいて、単語エラー率(WER)を最大5.5%削減する。
論文 参考訳(メタデータ) (2023-10-17T05:10:39Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。