論文の概要: Investigating Transcription Normalization in the Faetar ASR Benchmark
- arxiv url: http://arxiv.org/abs/2508.11771v1
- Date: Fri, 15 Aug 2025 18:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.367131
- Title: Investigating Transcription Normalization in the Faetar ASR Benchmark
- Title(参考訳): Faetar ASRベンチマークにおける転写正規化の検討
- Authors: Leo Peckham, Michael Ong, Naomi Nagy, Ewan Dunbar,
- Abstract要約: フェタール自動音声認識ベンチマークにおける転写不整合の役割について検討する。
手作りの小さな辞書の助けを借りて、我々は、不整合は転写に存在しているが、それらはタスクにおける主要な課題ではないと結論づける。
- 参考スコア(独自算出の注目度): 5.318072292894152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine the role of transcription inconsistencies in the Faetar Automatic Speech Recognition benchmark, a challenging low-resource ASR benchmark. With the help of a small, hand-constructed lexicon, we conclude that find that, while inconsistencies do exist in the transcriptions, they are not the main challenge in the task. We also demonstrate that bigram word-based language modelling is of no added benefit, but that constraining decoding to a finite lexicon can be beneficial. The task remains extremely difficult.
- Abstract(参考訳): 本稿では,低リソースASRベンチマークであるFaetar Automatic Speech Recognitionベンチマークにおける書き起こしの不整合性について検討する。
手作りの小さな辞書の助けを借りて、不整合は転写に存在しているが、それらはタスクにおける主な課題ではないと結論づける。
また、Bigramワードベースの言語モデリングは、付加的なメリットはないが、有限辞書へのデコード制約は有益であることを示す。
その仕事は依然として非常に難しい。
関連論文リスト
- Large Language Models based ASR Error Correction for Child Conversations [29.60036844081859]
LLM(Large Language Models)は、ASR転写を改善することを約束している。
LLMはゼロショットのASR出力と微調整のCTCベースのASR出力の補正に有用である。
LLMが文脈情報を組み込む場合、ASRの性能を改善することは依然として困難である。
論文 参考訳(メタデータ) (2025-05-22T04:28:02Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Knowledge Distillation for Improved Accuracy in Spoken Question
Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。
我々の研究は、言語モデルから知識の抽出を監督信号として進めている。
実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-21T15:18:01Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。