Fugu-MT 論文翻訳(概要): Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection

論文の概要: Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection

arxiv url: http://arxiv.org/abs/2505.23627v1
Date: Thu, 29 May 2025 16:34:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.992851
Title: Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection
Title（参考訳）: 改良されたヴァーバティム転写と終端ミスキュー検出のためのプロンプティングウィスパー
Authors: Griffin Dietz Smith, Dianna Yee, Jennifer King Chen, Leah Findlater,
Abstract要約: 本稿では,目的の読解テキストをプロンプトで組み込んだエンドツーエンドアーキテクチャを提案する。本研究は, 幼児の読解音声と成人非定型音声の2つの事例研究を行い, 提案手法は, 現在の最先端技術と比較して, 動詞の書き起こしと誤検出を改善していることがわかった。
参考スコア（独自算出の注目度）: 7.650371454756065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Identifying mistakes (i.e., miscues) made while reading aloud is commonly approached post-hoc by comparing automatic speech recognition (ASR) transcriptions to the target reading text. However, post-hoc methods perform poorly when ASR inaccurately transcribes verbatim speech. To improve on current methods for reading error annotation, we propose a novel end-to-end architecture that incorporates the target reading text via prompting and is trained for both improved verbatim transcription and direct miscue detection. Our contributions include: first, demonstrating that incorporating reading text through prompting benefits verbatim transcription performance over fine-tuning, and second, showing that it is feasible to augment speech recognition tasks for end-to-end miscue detection. We conducted two case studies -- children's read-aloud and adult atypical speech -- and found that our proposed strategies improve verbatim transcription and miscue detection compared to current state-of-the-art.
Abstract（参考訳）: 音声認識(ASR)の書き起こしを対象読解テキストと比較することにより、音声読解時に犯した誤り(すなわち誤読)をポストホックで識別することが一般的である。しかし,ASRが音声を不正確な書き起こしを行う場合には,ポストホック法は不十分である。そこで本研究では,提案手法を改良した読解テキストをプロンプトで組み込んだ新しいエンドツーエンドアーキテクチャを提案する。コントリビューションは、まず、微調整よりも冗長な書き起こし性能を促進させることで読み書きを取り入れること、そして第2に、エンド・ツー・エンドの誤り検出のために音声認識タスクを増強することが可能であることを示す。本研究は, 幼児の読解音声と成人非定型音声の2つの事例研究を行い, 提案手法は, 現在の最先端技術と比較して, 動詞の書き起こしと誤検出を改善していることがわかった。

関連論文リスト

Listening or Reading? Evaluating Speech Awareness in Chain-of-Thought Speech-to-Text Translation [12.571782794778182]
CoT(Chain-of-Thought)プロンプトが導入されており、音声と文字起こしを共同でアクセスすることがこれらの問題を克服すると予想されている。主に音声の書き起こしに頼りながら、ほとんど音声を生かして、カスケードされた振る舞いを反映していることがわかりました。直接S2TTデータの追加やノイズのある書き起こし注入といった簡単な訓練介入は、堅牢性を高め、音声の帰属性を高める。
論文参考訳（メタデータ） (2025-10-03T15:42:38Z)
Refining Transcripts With TV Subtitles by Prompt-Based Weakly Supervised Training of ASR [15.311893064721858]
本研究では、弱教師付き(WS)自動音声認識(ASR)フレームワークにおいて、テレビ字幕を使用するための新しい手法を提案する。本手法では,字幕を直接監視信号として使用するのではなく,文脈に富むプロンプトとして再認識する。生成された擬似転写文字が主要なターゲットとなり、字幕は反復的洗練のための導出手段として機能する。
論文参考訳（メタデータ） (2025-09-01T11:43:07Z)
Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-01-07T14:17:47Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。本稿では,新たな課題を提起する書き起こし音声の属性について考察する。そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2023-11-13T18:54:17Z)
Boosting Punctuation Restoration with Data Generation and Reinforcement Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題であるテキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文参考訳（メタデータ） (2023-07-24T17:22:04Z)
Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文参考訳（メタデータ） (2023-06-06T08:08:18Z)
Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。 TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文参考訳（メタデータ） (2023-05-30T09:57:36Z)
Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文参考訳（メタデータ） (2022-06-15T04:08:10Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
Spoken Term Detection Methods for Sparse Transcription in Very Low-resource Settings [20.410074074340447]
2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
論文参考訳（メタデータ） (2021-06-11T04:09:54Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。