論文の概要: Improving Named Entity Transcription with Contextual LLM-based Revision
- arxiv url: http://arxiv.org/abs/2506.10779v1
- Date: Thu, 12 Jun 2025 14:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.799459
- Title: Improving Named Entity Transcription with Contextual LLM-based Revision
- Title(参考訳): コンテキストLLMに基づくリビジョンによる名前付きエンティティの転写の改善
- Authors: Viet Anh Trinh, Xinlu He, Jacob Whitehill,
- Abstract要約: 音声認識予測において,不正確な名前付きエンティティを修正するための大言語モデル (LLM) のリビジョン機構を導入する。
提案手法は、名前付きエンティティに対して最大30%の相対的なWER削減を実現する。
- 参考スコア(独自算出の注目度): 14.078146578977599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advances in modeling and the increasing amount of supervised training data, automatic speech recognition (ASR) systems have achieved remarkable performance on general speech. However, the word error rate (WER) of state-of-the-art ASR remains high for named entities. Since named entities are often the most critical keywords, misrecognizing them can affect all downstream applications, especially when the ASR system functions as the front end of a complex system. In this paper, we introduce a large language model (LLM) revision mechanism to revise incorrect named entities in ASR predictions by leveraging the LLM's reasoning ability as well as local context (e.g., lecture notes) containing a set of correct named entities. Finally, we introduce the NER-MIT-OpenCourseWare dataset, containing 45 hours of data from MIT courses for development and testing. On this dataset, our proposed technique achieves up to 30\% relative WER reduction for named entities.
- Abstract(参考訳): 近年のモデリングの進歩と教師付き訓練データの増加により,音声認識システム(ASR)は一般の音声に対して顕著な性能を発揮している。
しかし、最先端のASRの単語誤り率(WER)は、名前付きエンティティでは高いままである。
名前付きエンティティはしばしば最も重要なキーワードであるため、これらを誤認識することは、特にASRシステムが複雑なシステムのフロントエンドとして機能する場合、すべての下流アプリケーションに影響を与える可能性がある。
本稿では、LLMの推論能力と、正しい名前付きエンティティの集合を含むローカルコンテキスト(例えば講義ノート)を活用することで、ASR予測における不正確な名前付きエンティティを修正するための大言語モデル(LLM)の改訂機構を提案する。
最後に,NER-MIT-OpenCourseWareデータセットを紹介した。
本手法により,提案手法は名前付きエンティティに対して最大30 %の相対的な WER 削減を実現する。
関連論文リスト
- LLM-based Generative Error Correction for Rare Words with Synthetic Data and Phonetic Context [4.444835399672951]
稀な単語を対象とし,音声情報を組み込んだ新しいGER手法を提案する。
実験結果から,本手法は稀な単語の訂正を改善するだけでなく,WERとCERを低減させることがわかった。
論文 参考訳(メタデータ) (2025-05-23T02:54:52Z) - Understanding Zero-shot Rare Word Recognition Improvements Through LLM Integration [0.8702432681310401]
本稿では,大規模言語モデル(LLM)と自動音声認識(ASR)システムの統合について検討する。
分析の結果,LLMはレアワード誤り率(R-WER)の改善に大きく寄与していることが明らかとなった。
広範にわたるアブレーション研究を通じて,LLMの言語能力と音声エンコーダ出力の整合化におけるアダプタ統合の重要性を強調した。
論文 参考訳(メタデータ) (2025-02-22T08:30:38Z) - "I've Heard of You!": Generate Spoken Named Entity Recognition Data for Unseen Entities [59.22329574700317]
名前付きエンティティ認識(NER)は、名前付きエンティティを音声から識別することを目的としている。
しかし、新しい名前のエンティティが毎日現れ、Spoken NERデータに注釈をつけるのはコストがかかる。
そこで本稿では,NEDに基づく音声NERデータ生成手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T07:43:18Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - ACLM: A Selective-Denoising based Generative Data Augmentation Approach
for Low-Resource Complex NER [47.32935969127478]
本稿では、条件付き言語モデルファインチューニングのためのACLM注意マップ対応キーワード選択について述べる。
ACLMは、既存のNERデータ拡張技術が抱える問題であるコンテキストエンティリティミスマッチ問題を緩和する。
本稿では,ACLMがモノリンガル,クロスリンガル,多言語複合NERに対して質的かつ定量的に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:33:04Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。