論文の概要: SCRIBE: Diagnostic Evaluation and Rich Transcription Models for Indic ASR
- arxiv url: http://arxiv.org/abs/2605.20712v1
- Date: Wed, 20 May 2026 05:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.48369
- Title: SCRIBE: Diagnostic Evaluation and Rich Transcription Models for Indic ASR
- Title(参考訳): SCRIBE:Indic ASRにおける診断評価とリッチ転写モデル
- Authors: Kavya Manohar, Arghya Bhattacharya, Kush Juvekar, Kumarmanas Nethil,
- Abstract要約: SCRIBEは,語彙,句読点,数値,ドメインの集中度を分類的に分解する診断フレームワークである。
LLMキュレーションパイプラインであるSCRIBE、ベンチマーク、ヒンディー語、マラヤラム語、カナダ語のためのオープンウェイトリッチな転写モデルをリリースする。
- 参考スコア(独自算出の注目度): 0.37331950863394864
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic speech recognition replaces typing only when correction costs less than manual entry, a threshold determined by error types, not counts: fixing a misrecognized domain term costs far more than inserting a comma. Word error rate (WER) fails on two fronts: it collapses distinct error categories into a single scalar, and it structurally penalizes agglutinative languages where valid sandhi merges inflate scores. We introduce SCRIBE, a diagnostic framework that provides categorical error decomposition into lexical, punctuation, numeral, and domain-entity rates through sandhi-tolerant alignment with domain vocabulary injection. Human validation confirms SCRIBE aligns with expert judgment where WER does not. We release SCRIBE, an LLM curation pipeline, benchmarks, and open-weight rich transcription models for Hindi, Malayalam, and Kannada.
- Abstract(参考訳): 自動音声認識は、修正コストが手動入力よりも低い場合にのみタイピングを置き換えるが、エラータイプによって決定される閾値はカウントしない: 認識されていないドメイン項の修正は、コンマを挿入するよりもはるかにコストがかかる。
単語誤り率(WER)は2つの面で失敗する: 異なるエラーカテゴリを1つのスカラーに分解し、有効なサンディーマージがスコアをインフレートする凝集言語を構造的に罰する。
SCRIBEは,辞書,句読点,数字,ドメインエンテンシティのカテゴリー的誤り分解を,ドメインボキャブラリ注入によるサンジトトレラントアライメントによって実現する診断フレームワークである。
人間による検証では、SCRIBEはWERがしない専門家の判断と一致している。
LLMキュレーションパイプラインであるSCRIBE、ベンチマーク、ヒンディー語、マラヤラム語、カナダ語のためのオープンウェイトリッチな転写モデルをリリースする。
関連論文リスト
- Distinguishing Repetition Disfluency from Morphological Reduplication in Bangla ASR Transcripts: A Novel Corpus and Benchmarking Analysis [0.0]
ノイズの多いASR転写におけるこれらの2つの現象を明瞭に区別するために,手動で注釈を付した2万列バングラコーパスを紹介した。
我々は、この新しいリソースを、最先端の多言語大言語モデル(LLM)とタスク固有のエンコーダモデルの微調整という2つのパラダイムを用いてベンチマークする。
論文 参考訳(メタデータ) (2025-11-17T09:06:01Z) - Automated Quality Control for Language Documentation: Detecting Phonotactic Inconsistencies in a Kokborok Wordlist [0.0]
バングラを用いたコクボロク品種の多言語データセットに教師なし異常検出法を適用した。
文字レベルと音節レベルの特徴は、潜在的な転写エラーや借用を識別するために使用される。
ハイリコールアプローチは、フィールドワーカーに検証を必要とするエントリをフラグする体系的な方法を提供する。
論文 参考訳(メタデータ) (2025-10-24T15:51:10Z) - Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition [61.712328155788434]
現実世界のシステムは、ラベル付きデータに制限のある、目に見えないアクセントとドメインに遭遇する。
擬似ラベルは、しばしばフィルタリングが修正に失敗するシステマティックでアクセント固有のエラーをもたらす。
そこで本研究では,これらの繰り返しバイアスを目的の真理を含まない簡単なパラメータ空間補正を提案する。
論文 参考訳(メタデータ) (2025-10-09T10:31:47Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally
Occurring Spelling Inconsistency [8.888638284299736]
我々は,語彙資源,日本語テキスト処理システム,ニューラルマシン翻訳モデルの組み合わせを用いて,参照転写の可塑性レスペリングの格子を作成する。
提案手法は,単語の有効な代替綴りを選択するシステムにペナルティを課さないため,タスクに応じてCERを2.4%~3.1%削減する。
論文 参考訳(メタデータ) (2023-06-07T15:39:02Z) - Punctuation Prediction in Spontaneous Conversations: Can We Mitigate ASR
Errors with Retrofitted Word Embeddings? [33.5428664411426]
ドメイン固有のデータへの埋め込みがASRエラーを緩和することを示す。
我々は,最先端モデルと比較して,句読点の精度が6.2%(疑問点)から9%(期間)に絶対的に向上したことを記録した。
論文 参考訳(メタデータ) (2020-04-13T15:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。