論文の概要: Comparison of End-to-end Speech Assessment Models for the NOCASA 2025 Challenge
- arxiv url: http://arxiv.org/abs/2509.03256v1
- Date: Wed, 03 Sep 2025 12:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.510754
- Title: Comparison of End-to-end Speech Assessment Models for the NOCASA 2025 Challenge
- Title(参考訳): NOCASA 2025チャレンジにおけるエンドツーエンド音声評価モデルの比較
- Authors: Aleksei Žavoronkov, Tanel Alumäe,
- Abstract要約: 本稿では,ノルウェー語を第2言語として学習する子どもたちを対象に,NOCASA 2025 Challengeのために開発された3つのエンドツーエンドモデルの解析を行った。
我々のモデルには、エンコーダ・デコーダ・シームズアーキテクチャ(E2E-R)、事前訓練されたwav2vec2.0表現を利用したプレフィックス付き直接分類モデル、CTCで計算したアライメントフリーな発音特徴を統合する新しいモデルが含まれる。
- 参考スコア(独自算出の注目度): 6.193919591996934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an analysis of three end-to-end models developed for the NOCASA 2025 Challenge, aimed at automatic word-level pronunciation assessment for children learning Norwegian as a second language. Our models include an encoder-decoder Siamese architecture (E2E-R), a prefix-tuned direct classification model leveraging pretrained wav2vec2.0 representations, and a novel model integrating alignment-free goodness-of-pronunciation (GOP) features computed via CTC. We introduce a weighted ordinal cross-entropy loss tailored for optimizing metrics such as unweighted average recall and mean absolute error. Among the explored methods, our GOP-CTC-based model achieved the highest performance, substantially surpassing challenge baselines and attaining top leaderboard scores.
- Abstract(参考訳): 本稿では,ノルウェー語を第2言語として学習する子どもたちを対象に,NOCASA 2025 Challengeのために開発された3つのエンドツーエンドモデルの解析を行った。
我々のモデルには、エンコーダ・デコーダ・シームズアーキテクチャ(E2E-R)、事前訓練されたwav2vec2.0表現を利用したプレフィックス付き直接分類モデル、CTCで計算したアライメントフリー・グッド・オブ・プロナライゼーション(GOP)機能を統合した新しいモデルが含まれる。
非重み付き平均リコールや平均絶対誤差などの指標を最適化するための重み付き順序付きクロスエントロピー損失を導入する。
提案手法のうち,GOP-CTCをベースとしたモデルが最も高い性能を達成し,課題ベースラインを大幅に超え,トップボードスコアを達成できた。
関連論文リスト
- T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。