論文の概要: The NTNU System at the S&I Challenge 2025 SLA Open Track
- arxiv url: http://arxiv.org/abs/2506.05121v1
- Date: Thu, 05 Jun 2025 15:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.774512
- Title: The NTNU System at the S&I Challenge 2025 SLA Open Track
- Title(参考訳): S&I Challenge 2025 SLAオープントラックにおけるNTNUシステム
- Authors: Hong-Yun Lin, Tien-Hong Lo, Yu-Hsuan Fang, Jhen-Ke Lin, Chung-Chun Wang, Hao-Chien Lu, Berlin Chen,
- Abstract要約: スコア融合戦略を用いて,W2VとPhi-4マルチモーダル大言語モデル(MLLM)を統合するシステムを提案する。
提案システムは,Speak & Improve Challenge 2025の公式テストセットにおいて,0.375の根平均二乗誤差(RMSE)を達成する。
比較すると、トップランク、サードランク、オフィシャルベースラインのRMSEはそれぞれ0.364、0.384、0.444である。
- 参考スコア(独自算出の注目度): 4.3128061558581585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent line of research on spoken language assessment (SLA) employs neural models such as BERT and wav2vec 2.0 (W2V) to evaluate speaking proficiency across linguistic and acoustic modalities. Although both models effectively capture features relevant to oral competence, each exhibits modality-specific limitations. BERT-based methods rely on ASR transcripts, which often fail to capture prosodic and phonetic cues for SLA. In contrast, W2V-based methods excel at modeling acoustic features but lack semantic interpretability. To overcome these limitations, we propose a system that integrates W2V with Phi-4 multimodal large language model (MLLM) through a score fusion strategy. The proposed system achieves a root mean square error (RMSE) of 0.375 on the official test set of the Speak & Improve Challenge 2025, securing second place in the competition. For comparison, the RMSEs of the top-ranked, third-ranked, and official baseline systems are 0.364, 0.384, and 0.444, respectively.
- Abstract(参考訳): 近年の音声言語アセスメント (SLA) では, BERT や wav2vec 2.0 (W2V) などのニューラルモデルを用いて, 言語的・音響的モダリティを越えた発話能力の評価を行っている。
どちらのモデルも口頭能力に関連する特徴を効果的に捉えているが、それぞれのモデルにはモダリティ固有の制限がある。
BERT ベースの手法は ASR の転写に依存しており、SLA の韻律的および音声学的手がかりを捉えるのに失敗することが多い。
対照的に、W2Vベースの手法は音響特性のモデル化に優れるが、意味論的解釈性に欠ける。
これらの制約を克服するため、スコア融合戦略を用いてW2VとPhi-4マルチモーダル大言語モデル(MLLM)を統合するシステムを提案する。
提案システムは,Speak & Improve Challenge 2025の公式テストセットで0.375の根平均二乗誤差(RMSE)を達成し,大会で2位を確保した。
比較すると、トップランク、サードランク、オフィシャルベースラインのRMSEはそれぞれ0.364、0.384、0.444である。
関連論文リスト
- KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。
本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文 参考訳(メタデータ) (2025-05-05T12:36:03Z) - Non-native Children's Automatic Speech Assessment Challenge (NOCASA) [15.921285405887009]
NOCASAはIEEE MLSP 2025カンファレンスのデータコンペティションである。
若年第二言語(L2)学習者の単一単語発音を評価できるシステムを開発することを課題とする。
ノルウェー語205語を発音しようとする44人の話者から10,334の録音を含む擬似匿名化訓練データ(TeflonNorL2)を提供する。
論文 参考訳(メタデータ) (2025-04-29T11:59:08Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition [57.31233839489528]
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合する手法について検討する。
論文 参考訳(メタデータ) (2023-02-28T13:39:17Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。