論文の概要: One Whisper to Grade Them All
- arxiv url: http://arxiv.org/abs/2507.17918v1
- Date: Wed, 23 Jul 2025 20:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.531871
- Title: One Whisper to Grade Them All
- Title(参考訳): one Whisper (複数形 one Whispers)
- Authors: Nhan Phan, Anusha Porwal, Yaroslav Getman, Ekaterina Voskoboinik, Tamás Grósz, Mikko Kurimo,
- Abstract要約: 複数部からなる第2言語テストの総合的自動発話評価(ASA)に対して,効率的なエンドツーエンドアプローチを提案する。
我々のシステムの主な特徴は、4つの音声応答を1つのWhisper小エンコーダで処理できることである。
このアーキテクチャは、書き起こしや部品ごとのモデルの必要性を排除し、推論時間を短縮し、ASAを大規模コンピュータ支援型言語学習システムに活用する。
- 参考スコア(独自算出の注目度): 10.035434464829958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an efficient end-to-end approach for holistic Automatic Speaking Assessment (ASA) of multi-part second-language tests, developed for the 2025 Speak & Improve Challenge. Our system's main novelty is the ability to process all four spoken responses with a single Whisper-small encoder, combine all information via a lightweight aggregator, and predict the final score. This architecture removes the need for transcription and per-part models, cuts inference time, and makes ASA practical for large-scale Computer-Assisted Language Learning systems. Our system achieved a Root Mean Squared Error (RMSE) of 0.384, outperforming the text-based baseline (0.44) while using at most 168M parameters (about 70% of Whisper-small). Furthermore, we propose a data sampling strategy, allowing the model to train on only 44.8% of the speakers in the corpus and still reach 0.383 RMSE, demonstrating improved performance on imbalanced classes and strong data efficiency.
- Abstract(参考訳): 我々は,2025年のSpeak & Improve Challengeのために開発された多部第二言語テストの総合的自動発話評価(ASA)のための効率的なエンドツーエンドアプローチを提案する。
我々のシステムの主な特徴は、4つの音声応答を1つのWhisper小エンコーダで処理し、軽量アグリゲータを介して全ての情報を合成し、最終的なスコアを予測することである。
このアーキテクチャは、書き起こしや部品ごとのモデルの必要性を排除し、推論時間を短縮し、ASAを大規模コンピュータ支援型言語学習システムに活用する。
提案システムは,最大168Mパラメータ(Whisper-smallの約70%)を用いながら,テキストベースベースライン(0.44)を上回り,0.384のRoot Mean Squared Error(RMSE)を達成した。
さらに,コーパス内の話者の44.8%しか訓練せず,0.383 RMSEまで到達可能なデータサンプリング戦略を提案し,不均衡クラスの性能向上とデータ効率の向上を実証した。
関連論文リスト
- NTU Speechlab LLM-Based Multilingual ASR System for Interspeech MLC-SLM Challenge 2025 [24.056321452209666]
MLC-SLM(Interspeech 2025 Multilingual Conversational Speech and Language Model)チャレンジ(Task I)のために開発されたNTU音声ラボシステムについて詳述する。
本稿では,多言語自動音声認識システムの包括的分析を行い,モデルアーキテクチャ,データ選択,学習戦略における重要な進歩に注目した。
論文 参考訳(メタデータ) (2025-06-16T10:28:27Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - This Paper Had the Smartest Reviewers -- Flattery Detection Utilising an Audio-Textual Transformer-Based Approach [42.27824690168642]
フラタリー(英: Flattery)は、人間のコミュニケーションにおいて重要な側面であり、社会的結合を促進し、知覚を形作り、戦略的賞賛と賞賛を通じて行動に影響を与える。
そこで本研究では,20時間の音声と学習機械学習モデルを用いて,フラットな自動検出を行う新しい音声テキストデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T15:57:02Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Speech2Phone: A Novel and Efficient Method for Training Speaker
Recognition Models [0.697505859813853]
そこで本研究では,小規模あるいは低リソースのデータセットを用いた話者認識のための学習モデルを提案する。
この方法は、他のSOTA(State-Of-The-Art)メソッドよりも少ないデータを必要とする。
論文 参考訳(メタデータ) (2020-02-25T22:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。