論文の概要: Mind the Gap: Entity-Preserved Context-Aware ASR Structured Transcriptions
- arxiv url: http://arxiv.org/abs/2506.22858v1
- Date: Sat, 28 Jun 2025 11:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.605597
- Title: Mind the Gap: Entity-Preserved Context-Aware ASR Structured Transcriptions
- Title(参考訳): Mind the Gap: エンティティ保存コンテキスト対応のASR構造化転写
- Authors: Duygu Altinok,
- Abstract要約: 本稿では,ASRモデルの意味的文脈を拡張する新しいトレーニング手法を提案する。
30秒のチャンクの両側で5秒のオーバーラップをスライスすることで、40秒の"効果的なセマンティックウィンドウ"を作成します。
提案手法をスポンクウィキペディアデータセット上で評価する。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems, such as Whisper, achieve high transcription accuracy but struggle with named entities and numerical data, especially when proper formatting is required. These issues increase word error rate (WER) and impair semantic understanding in critical domains like legal, financial, and medical applications. We propose a novel training approach that extends the semantic context of ASR models by adding overlapping context windows during training. By sliding 5-second overlaps on both sides of 30-second chunks, we create a 40-second "effective semantic window," improving entity recognition and formatting while focusing predictions on the central 30 seconds. To address entities spanning chunk boundaries, we reassign such entities entirely to the right-hand chunk, ensuring proper formatting. Additionally, enriched training data with embedded entity labels enables the model to learn both recognition and type-specific formatting. Evaluated on the Spoken Wikipedia dataset, our method improves performance across semantic tasks, including named entity recognition (NER) and entity formatting. These results highlight the effectiveness of context-aware training in addressing ASR limitations for long-form transcription and complex entity recognition tasks.
- Abstract(参考訳): Whisperのような自動音声認識(ASR)システムは高い転写精度を達成するが、特に適切なフォーマットを必要とする場合、名前付きエンティティや数値データと競合する。
これらの問題はワードエラー率(WER)を増大させ、法律、金融、医療などの重要な領域における意味的理解を損なう。
トレーニング中に重なり合うコンテキストウィンドウを追加することで、ASRモデルの意味的コンテキストを拡張する新しいトレーニング手法を提案する。
30秒のチャンクの両側で5秒のオーバーラップをスライスすることで、40秒の"効果的なセマンティックウィンドウ"を作り、エンティティ認識とフォーマットを改善し、中央30秒の予測に集中する。
チャンク境界にまたがるエンティティに対処するために、そのようなエンティティを完全に右チャンクに割り当て、適切なフォーマットを保証する。
さらに、組み込みエンティティラベルによるリッチなトレーニングデータにより、モデルは認識と型固有のフォーマットの両方を学ぶことができる。
Spoken Wikipediaデータセットを用いて評価し、名前付きエンティティ認識(NER)やエンティティフォーマッティングなど、セマンティックタスク間のパフォーマンスを改善する。
これらの結果は、長文の転写と複雑なエンティティ認識タスクに対するASR制限に対処する文脈認識トレーニングの有効性を強調した。
関連論文リスト
- Improving Named Entity Transcription with Contextual LLM-based Revision [14.078146578977599]
音声認識予測において,不正確な名前付きエンティティを修正するための大言語モデル (LLM) のリビジョン機構を導入する。
提案手法は、名前付きエンティティに対して最大30%の相対的なWER削減を実現する。
論文 参考訳(メタデータ) (2025-06-12T14:53:48Z) - Customizing Speech Recognition Model with Large Language Model Feedback [5.290365603660415]
教師なしドメイン適応のための強化学習に基づくアプローチを提案する。
我々は、未ラベルデータを利用して転写品質、特にドメインミスマッチの影響を受ける名前付きエンティティを向上させる。
提案手法は,従来の自己学習手法に比べて,エンティティ単語の誤り率を21%向上させる。
論文 参考訳(メタデータ) (2025-06-05T18:42:57Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Bypass Temporal Classification: Weakly Supervised Automatic Speech
Recognition with Imperfect Transcripts [44.16141704545044]
本稿では,不完全な学習データを用いた音声認識モデル(ASR)を構築するための新しいアルゴリズムを提案する。
提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。
論文 参考訳(メタデータ) (2023-06-01T14:56:19Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - End-to-End Spoken Language Understanding Without Full Transcripts [38.19173637496798]
音声入力を直接意味的エンティティに変換するエンド・ツー・エンド(E2E)音声言語理解システムを開発した。
CTCモデルとアテンションベースのエンコーダ・デコーダモデルという2つのタイプを作成した。
ATISコーパスにおける発話・発話実験では、CTCとアテンションモデルの両方が、非発話語をスキップする印象的な能力を示した。
論文 参考訳(メタデータ) (2020-09-30T01:54:13Z) - ConCET: Entity-Aware Topic Classification for Open-Domain Conversational
Agents [9.870634472479571]
ConCET: Concurrent Entity-aware conversational Topic Classifierを紹介する。
本稿では,合成学習データを生成するための簡便で効果的な手法を提案する。
我々はAmazon Alexa Prizeの一部として収集された実際のユーザとの人間と機械の会話の大規模なデータセットでConCETを評価した。
論文 参考訳(メタデータ) (2020-05-28T06:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。