論文の概要: Session-Level Spoken Language Assessment with a Multimodal Foundation Model via Multi-Target Learning
- arxiv url: http://arxiv.org/abs/2509.16025v1
- Date: Fri, 19 Sep 2025 14:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.203305
- Title: Session-Level Spoken Language Assessment with a Multimodal Foundation Model via Multi-Target Learning
- Title(参考訳): マルチターゲット学習によるマルチモーダル基礎モデルを用いたセッションレベル音声言語評価
- Authors: Hong-Yun Lin, Jhen-Ke Lin, Chung-Chun Wang, Hao-Chien Lu, Berlin Chen,
- Abstract要約: 音声言語アセスメント(SLA)は、学習者の発話能力を自然発話から推定する。
本稿では,セッションレベル評価を単一パスで行う,新しいマルチモーダル基礎モデルを提案する。
- 参考スコア(独自算出の注目度): 8.717610965852037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Language Assessment (SLA) estimates a learner's oral proficiency from spontaneous speech. The growing population of L2 English speakers has intensified the demand for reliable SLA, a critical component of Computer Assisted Language Learning (CALL). Existing efforts often rely on cascaded pipelines, which are prone to error propagation, or end-to-end models that often operate on a short audio window, which might miss discourse-level evidence. This paper introduces a novel multimodal foundation model approach that performs session-level evaluation in a single pass. Our approach couples multi-target learning with a frozen, Whisper ASR model-based speech prior for acoustic-aware calibration, allowing for jointly learning holistic and trait-level objectives of SLA without resorting to handcrafted features. By coherently processing the entire response session of an L2 speaker, the model excels at predicting holistic oral proficiency. Experiments conducted on the Speak & Improve benchmark demonstrate that our proposed approach outperforms the previous state-of-the-art cascaded system and exhibits robust cross-part generalization, producing a compact deployable grader that is tailored for CALL applications.
- Abstract(参考訳): 音声言語アセスメント (SLA) は、学習者の口頭習熟度を自然発話から推定する。
L2英語話者の人口増加に伴い、コンピュータ支援言語学習(CALL)の重要なコンポーネントである信頼性SLAへの需要が高まっている。
既存の取り組みは、しばしば、エラーの伝播しがちなカスケードパイプラインや、短いオーディオウィンドウでしばしば動作するエンドツーエンドモデルに依存しており、談話レベルの証拠を見逃す可能性がある。
本稿では,セッションレベル評価を単一パスで行う,新しいマルチモーダル基礎モデルを提案する。
提案手法では,凍結したWhisper ASRモデルに基づくマルチターゲット学習を音響認識キャリブレーションに先立って組み合わせることにより,手作りの特徴に頼らずにSLAの全体的および特性レベルの目的を共同学習することができる。
L2話者の全応答セッションをコヒーレントに処理することにより、モデルは全体的口頭習熟度を予測するのに優れる。
Speak & Improve ベンチマークで行った実験では,提案手法は従来の最先端のカスケードシステムより優れており,より堅牢なクロスパートの一般化を示し,CALL アプリケーションに適したコンパクトな展開可能なグレーダを生成する。
関連論文リスト
- CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [13.74065648648307]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models [4.917936997225074]
MLC-SLM(Multilingual Conversational Speech Language Model Challenge)の両トラック用システム
ASRのための音声モデルにおいて、推論と自己補正を明確に強化する多段階学習パイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-16T09:42:05Z) - NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。
提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-01T12:01:40Z) - Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。