論文の概要: Evaluating OpenAI's Whisper ASR for Punctuation Prediction and Topic
Modeling of life histories of the Museum of the Person
- arxiv url: http://arxiv.org/abs/2305.14580v1
- Date: Tue, 23 May 2023 23:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:06:51.152257
- Title: Evaluating OpenAI's Whisper ASR for Punctuation Prediction and Topic
Modeling of life histories of the Museum of the Person
- Title(参考訳): openai のささやき asr の評価 : 人文博物館における生活史の時間予測と話題モデリング
- Authors: Lucas Rafael Stefanel Gris and Ricardo Marcacini and Arnaldo Candido
Junior and Edresson Casanova and Anderson Soares and Sandra Maria Alu\'isio
- Abstract要約: この章は、ポルトガル語の句読点予測のためのウィスパーのパフォーマンスに関する最初の研究を提示する。
本研究では,人の生活史を語り,保存することを目的とした仮想博物館「人博物館」のビデオによる実験結果について分析する。
- 参考スコア(独自算出の注目度): 1.6476042691556474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems play a key role in applications
involving human-machine interactions. Despite their importance, ASR models for
the Portuguese language proposed in the last decade have limitations in
relation to the correct identification of punctuation marks in automatic
transcriptions, which hinder the use of transcriptions by other systems,
models, and even by humans. However, recently Whisper ASR was proposed by
OpenAI, a general-purpose speech recognition model that has generated great
expectations in dealing with such limitations. This chapter presents the first
study on the performance of Whisper for punctuation prediction in the
Portuguese language. We present an experimental evaluation considering both
theoretical aspects involving pausing points (comma) and complete ideas
(exclamation, question, and fullstop), as well as practical aspects involving
transcript-based topic modeling - an application dependent on punctuation marks
for promising performance. We analyzed experimental results from videos of
Museum of the Person, a virtual museum that aims to tell and preserve people's
life histories, thus discussing the pros and cons of Whisper in a real-world
scenario. Although our experiments indicate that Whisper achieves
state-of-the-art results, we conclude that some punctuation marks require
improvements, such as exclamation, semicolon and colon.
- Abstract(参考訳): 自動音声認識(ASR)システムは、人間と機械の相互作用を含むアプリケーションにおいて重要な役割を果たす。
その重要性にもかかわらず、過去10年間に提案されたポルトガル語のASRモデルは、自動転写における句読点の正確な識別に関して制限があり、他のシステム、モデル、さらには人間による転写の使用を妨げる。
しかし,近年のWhisper ASRは,そのような制約に対処する上で大きな期待を抱く汎用音声認識モデルOpenAIによって提案されている。
この章は、ポルトガル語の句読点予測のためのウィスパーのパフォーマンスに関する最初の研究を提示する。
本稿では,ポーズポイント(コマ)と完全アイデア(宣言,質問,フルストップ)の理論的側面と,トランスクリプトベースのトピックモデリング(有望なパフォーマンスのための句読点に依存するアプリケーション)の実践的側面の両方を考慮した実験的評価を行う。
本研究では,人間の生活史を語り,保存することを目的とした仮想博物館「人博物館」のビデオによる実験結果を分析し,現実のシナリオにおけるWhisperの長所と短所について考察した。
実験の結果,Whisperは最先端の結果が得られたが,宣誓供述書,セミコロン,結腸などの句読点には改善が必要であると結論づけた。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。