論文の概要: Adapting an ASR Foundation Model for Spoken Language Assessment
- arxiv url: http://arxiv.org/abs/2307.09378v1
- Date: Thu, 13 Jul 2023 16:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 12:06:57.751513
- Title: Adapting an ASR Foundation Model for Spoken Language Assessment
- Title(参考訳): 音声言語評価のためのASR基礎モデルの適用
- Authors: Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill
- Abstract要約: 正確で信頼性の高い音声言語評価システムの重要な部分は、基礎となるASRモデルである。
近年、Whisperのような大規模な事前訓練されたASRファンデーションモデルが利用可能になっている。
これらのモデルでは、出力の反響やためらう傾向にある。
ここでは、候補者が言ったことを正確に書き起こす必要がある。
- 参考スコア(独自算出の注目度): 40.402050390096456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A crucial part of an accurate and reliable spoken language assessment system
is the underlying ASR model. Recently, large-scale pre-trained ASR foundation
models such as Whisper have been made available. As the output of these models
is designed to be human readable, punctuation is added, numbers are presented
in Arabic numeric form and abbreviations are included. Additionally, these
models have a tendency to skip disfluencies and hesitations in the output.
Though useful for readability, these attributes are not helpful for assessing
the ability of a candidate and providing feedback. Here a precise transcription
of what a candidate said is needed. In this paper, we give a detailed analysis
of Whisper outputs and propose two solutions: fine-tuning and soft prompt
tuning. Experiments are conducted on both public speech corpora and an English
learner dataset. Results show that we can effectively alter the decoding
behaviour of Whisper to generate the exact words spoken in the response.
- Abstract(参考訳): 正確で信頼性の高い音声言語評価システムの重要な部分は、基礎となるASRモデルである。
近年、Whisperのような大規模な事前訓練されたASR基盤モデルが利用可能になっている。
これらのモデルの出力は、人間が読めるように設計されているため、句読点が追加され、数字はアラビア数字形式で示され、省略形が含まれる。
さらに、これらのモデルは出力の反響やためらう傾向にある。
可読性には有用だが、これらの属性は候補の能力を評価しフィードバックを提供するのに役に立たない。
ここでは、候補者が言ったことを正確に書き起こす必要がある。
本稿では,whisper出力の詳細な解析を行い,微調整とソフトプロンプトチューニングの2つの解を提案する。
公開音声コーパスと英語学習者データセットの両方で実験を行う。
その結果,whisperの復号動作を効果的に変化させ,応答中の正確な単語を生成できることがわかった。
関連論文リスト
- Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。
ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。
我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文 参考訳(メタデータ) (2024-11-19T15:55:56Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - WER We Stand: Benchmarking Urdu ASR Models [3.5001789247699535]
本稿では,Urdu Automatic Speech Recognition(ASR)モデルの総合評価を行う。
単語誤り率(WER)を用いた3種類のASRモデル(Whisper, MMS, Seamless-M4T)の性能解析を行った。
読み上げ音声データセットでは、スムーズな広さが他のASRモデルより優れているのに対し、ささやきの広さは会話音声データセットでは最高であることがわかった。
論文 参考訳(メタデータ) (2024-09-17T15:00:31Z) - A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2024-09-11T17:34:52Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。