論文の概要: Whispering Context: Distilling Syntax and Semantics for Long Speech Transcripts
- arxiv url: http://arxiv.org/abs/2508.13376v1
- Date: Mon, 18 Aug 2025 21:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.730591
- Title: Whispering Context: Distilling Syntax and Semantics for Long Speech Transcripts
- Title(参考訳): 長文音声の構文とセマンティックスを蒸留する「WhisperingContext」
- Authors: Duygu Altinok,
- Abstract要約: 本稿では,LLaMAモデルからの文脈知識をWhisperに蒸留することにより,ASRを向上させる新しい手法を提案する。
提案手法では,(1) 寸法と列の長さを調整するための最適な輸送手段を用いたトークンレベルの蒸留,(2) Whisper と LLaMA の文埋め込みによる表現損失の最小化,の2つの手法を用いる。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: ASR systems often struggle with maintaining syntactic and semantic accuracy in long audio transcripts, impacting tasks like Named Entity Recognition (NER), capitalization, and punctuation. We propose a novel approach that enhances ASR by distilling contextual knowledge from LLaMA models into Whisper. Our method uses two strategies: (1) token level distillation with optimal transport to align dimensions and sequence lengths, and (2) representation loss minimization between sentence embeddings of Whisper and LLaMA, blending syntax and semantics. Evaluations on the Spoken Wikipedia dataset, a benchmark with long audios and rich entities demonstrate significant improvements in Word Error Rate (WER), NER, capitalization, and punctuation success. By introducing novel NER metrics and exploring semantics aware ASR, our work highlights the value of integrating linguistic context into transcription, setting a foundation for robust, context-aware ASR in longform speech.
- Abstract(参考訳): ASRシステムは、長い音声書き起こしにおける構文的および意味的精度の維持に苦慮し、名前付きエンティティ認識(NER)、資本化、句読点といったタスクに影響を及ぼす。
本稿では,LLaMAモデルからの文脈知識をWhisperに蒸留することにより,ASRを向上させる新しい手法を提案する。
提案手法では,(1) 次元とシーケンス長を整列する最適輸送を用いたトークンレベルの蒸留,(2) 構文と意味をブレンドしたWhisper と LLaMA の文埋め込みによる表現損失最小化という2つの手法を用いる。
Spoken Wikipediaデータセットの評価は、長いオーディオとリッチエンティティを備えたベンチマークであり、Word Error Rate(WER)、NER、資本化、句読点成功の大幅な改善を示している。
我々の研究は、新しいNERメトリクスを導入し、ASRを意識した意味論を探求することで、言語コンテキストを転写に組み込むことの価値を強調し、ロングフォーム音声における堅牢でコンテキスト対応のASRの基礎を確立する。
関連論文リスト
- Mind the Gap: Entity-Preserved Context-Aware ASR Structured Transcriptions [5.439020425819001]
本稿では,ASRモデルの意味的文脈を拡張する新しいトレーニング手法を提案する。
30秒のチャンクの両側で5秒のオーバーラップをスライスすることで、40秒の"効果的なセマンティックウィンドウ"を作成します。
提案手法をスポンクウィキペディアデータセット上で評価する。
論文 参考訳(メタデータ) (2025-06-28T11:41:36Z) - Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches [28.79400870481616]
1)既存のメトリクスは知性を十分に反映していない、(2)LSMはASR出力を洗練できるが、ASR書き起こしの修正の有効性は過小評価されている。
本稿では,自然言語推論(NLI)スコア,意味的類似性,音韻的類似性を組み合わせた新しいメトリクスを提案する。
我々のASR評価基準は,音声アクセシビリティプロジェクトデータにおける人間の判断と0.890の相関を達成し,従来の手法を超越し,誤りに基づく尺度よりもインテリジェンスを優先する必要性を強調した。
論文 参考訳(メタデータ) (2025-06-19T18:21:19Z) - Recording for Eyes, Not Echoing to Ears: Contextualized Spoken-to-Written Conversion of ASR Transcripts [19.02690795530784]
本研究では,ASRと文法の誤りに対処する文脈対応型スポンケン・トゥ・ブリッテン変換(CoS2W)タスクを提案する。
このタスクは、Large Language Models(LLM)のコンテキスト内学習機能と自然に一致する。
論文 参考訳(メタデータ) (2024-08-19T03:53:48Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Fusing ASR Outputs in Joint Training for Speech Emotion Recognition [14.35400087127149]
共同学習音声認識(SER)のためのパイプラインに自動音声認識(ASR)出力を融合する手法を提案する。
共同ASR-SERトレーニングでは、階層的コアテンション融合アプローチを用いて、ASRとテキストの出力の両方を組み込むことで、SERの性能が向上する。
また,IEMOCAPにおける単語誤り率解析や,ASRとSERの関係をよりよく理解するために,Wav2vec 2.0モデルの層差解析も提案する。
論文 参考訳(メタデータ) (2021-10-29T11:21:17Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。