論文の概要: Probing the Hidden Talent of ASR Foundation Models for L2 English Oral Assessment
- arxiv url: http://arxiv.org/abs/2510.16387v1
- Date: Sat, 18 Oct 2025 08:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.978741
- Title: Probing the Hidden Talent of ASR Foundation Models for L2 English Oral Assessment
- Title(参考訳): L2英語オーラルアセスメントのためのASR基盤モデルの隠れたタレントの提案
- Authors: Fu-An Chao, Bi-Cheng Yan, Berlin Chen,
- Abstract要約: 本稿では,ASR基盤モデルであるWhisperの未完成の可能性を探る。
隠れ表現から音響的特徴と言語的特徴を抽出し,その潜在能力を更に探究する。
我々はWhisperの埋め込みの詳細な分析を行い、タスク固有の微調整がなくても、本モデルが本質的に音声の順序的習熟パターンと意味的側面の両方を符号化することを示した。
- 参考スコア(独自算出の注目度): 17.656808708384435
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we explore the untapped potential of Whisper, a well-established automatic speech recognition (ASR) foundation model, in the context of L2 spoken language assessment (SLA). Unlike prior studies that extrinsically analyze transcriptions produced by Whisper, our approach goes a step further to probe its latent capabilities by extracting acoustic and linguistic features from hidden representations. With only a lightweight classifier being trained on top of Whisper's intermediate and final outputs, our method achieves strong performance on the GEPT picture-description dataset, outperforming existing cutting-edge baselines, including a multimodal approach. Furthermore, by incorporating image and text-prompt information as auxiliary relevance cues, we demonstrate additional performance gains. Finally, we conduct an in-depth analysis of Whisper's embeddings, which reveals that, even without task-specific fine-tuning, the model intrinsically encodes both ordinal proficiency patterns and semantic aspects of speech, highlighting its potential as a powerful foundation for SLA and other spoken language understanding tasks.
- Abstract(参考訳): 本稿では,L2音声言語アセスメント(SLA)の文脈において,確立された音声認識基盤モデルであるWhisperの未解決の可能性について検討する。
Whisperが生成した転写を外部から解析する以前の研究とは異なり、我々のアプローチは、隠れた表現から音響的特徴と言語学的特徴を抽出することによって、その潜在能力をさらに探究する。
本手法は,Whisper の中間出力および最終出力に基づいて,軽量な分類器のみを訓練することにより,GEPT 画像記述データセット上での強い性能を実現し,マルチモーダルアプローチを含む既存の最先端ベースラインよりも優れた性能を実現する。
さらに、画像情報とテキストプロンプト情報を補助的関連手法として組み込むことにより、さらなる性能向上を示す。
最後に、Whisperの埋め込みの詳細な分析を行い、タスク固有の微調整がなくても、そのモデルは本来、日常的習熟パターンと音声の意味的側面の両方を符号化し、SLAやその他の音声言語理解タスクの強力な基盤としての可能性を強調する。
関連論文リスト
- TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models [27.013776992438086]
SICL(TICL)のためのテキスト埋め込みKNNを提案する。
提案手法により, 最大84.7%のWER削減率でゼロショット性能を超えることができる。
論文 参考訳(メタデータ) (2025-09-16T17:07:23Z) - Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - Residual Speech Embeddings for Tone Classification: Removing Linguistic Content to Enhance Paralinguistic Analysis [2.0499240875882]
本稿では,言語コンテンツからパラ言語的特徴を引き離す手法を提案する。
本手法を複数の自己教師型音声埋め込みに適用して評価し,残差埋め込みがトーン分類性能を著しく向上させることを示した。
これらの知見は、感情分析、話者特性解析、パラ言語音声処理における残留埋め込みの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-26T18:32:15Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。