論文の概要: Addressing Cold Start Problem for End-to-end Automatic Speech Scoring
- arxiv url: http://arxiv.org/abs/2306.14310v1
- Date: Sun, 25 Jun 2023 18:48:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:31:48.236271
- Title: Addressing Cold Start Problem for End-to-end Automatic Speech Scoring
- Title(参考訳): エンドツーエンド自動音声認識におけるコールドスタート問題への対処
- Authors: Jungbae Park, Seungtaek Choi
- Abstract要約: 本研究は,新しい質問文脈における音声スコアリングシステムの性能の顕著な低下に注目した。
本稿では,1)埋め込みの促進,2)BERTモデルやCLIPモデルを用いた質問コンテキスト埋め込み,3)事前学習した音響モデルの選択などによって問題を緩和する。
- 参考スコア(独自算出の注目度): 6.528274916429686
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Integrating automatic speech scoring/assessment systems has become a critical
aspect of second-language speaking education. With self-supervised learning
advancements, end-to-end speech scoring approaches have exhibited promising
results. However, this study highlights the significant decrease in the
performance of speech scoring systems in new question contexts, thereby
identifying this as a cold start problem in terms of items. With the finding of
cold-start phenomena, this paper seeks to alleviate the problem by following
methods: 1) prompt embeddings, 2) question context embeddings using BERT or
CLIP models, and 3) choice of the pretrained acoustic model. Experiments are
conducted on TOEIC speaking test datasets collected from
English-as-a-second-language (ESL) learners rated by professional TOEIC
speaking evaluators. The results demonstrate that the proposed framework not
only exhibits robustness in a cold-start environment but also outperforms the
baselines for known content.
- Abstract(参考訳): 自動音声スコアリング・アセスメントシステムの統合は、第二言語教育において重要な側面となっている。
自己教師型学習の進歩により、エンドツーエンドの音声スコアリングアプローチは有望な結果を示した。
しかし,本研究では,新たな質問場面における音声スコアリングシステムの性能が著しく低下していることに注目し,項目の観点からのコールドスタート問題として捉えた。
コールドスタート現象の発見により,本論文は以下の方法により問題を緩和することを目指している。
1) 埋め込みの迅速化
2)BERTまたはCLIPモデルを用いた質問コンテキスト埋め込み
3)事前学習した音響モデルの選定。
プロのTOEIC言語評価者によって評価された英語・アズ・ア・セカンダリ(ESL)学習者から収集したTOEIC言語テストデータセットについて実験を行った。
その結果,提案フレームワークはコールドスタート環境におけるロバスト性だけでなく,既知のコンテンツのベースラインよりも優れていた。
関連論文リスト
- Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions [25.490988931354185]
本稿では、ターゲット話者抽出法(TSE)と音声感情認識法(SER)を用いて、この問題に対する新たな2段階フレームワークを提案する。
まず,TSEモデルを用いて混合話者の音声を抽出し,第2段階で抽出した音声をSER訓練に用いる。
提案システムでは,TSE法を使わずに,ベースラインに比べて14.33%の非重み付き精度(UA)向上を実現している。
論文 参考訳(メタデータ) (2024-09-29T07:04:50Z) - Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Self-supervised Dialogue Learning for Spoken Conversational Question
Answering [29.545937716796082]
音声対話質問応答(SCQA)では、複数の会話を含む固定された音声文書を検索して分析することにより、対応する質問に対する回答を生成する。
本研究では,不整合判定,挿入検出,質問予測などの自己教師付き学習手法を導入し,コア参照の解決と対話のコヒーレンスを明確に把握する。
提案手法は,従来の事前学習言語モデルと比較して,より一貫性があり,意味があり,適切な応答を提供する。
論文 参考訳(メタデータ) (2021-06-04T00:09:38Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - Topic Propagation in Conversational Search [0.0]
会話の文脈では、ユーザは、自然言語質問のシーケンスとして、多面的な情報を必要とすることを表現します。
筆者らは,2019 TREC Conversational Assistant Track (CAsT) フレームワークを用いて, (i) トピック認識発話の書き直し, (ii) 書き直された発話の候補節の検索, (iii) ニューラルネットワークによる候補節の再ランク付けを行う。
論文 参考訳(メタデータ) (2020-04-29T10:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。