論文の概要: An Effective Strategy for Modeling Score Ordinality and Non-uniform Intervals in Automated Speaking Assessment
- arxiv url: http://arxiv.org/abs/2509.03372v2
- Date: Sun, 21 Sep 2025 05:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.580585
- Title: An Effective Strategy for Modeling Score Ordinality and Non-uniform Intervals in Automated Speaking Assessment
- Title(参考訳): 自動発話評価におけるスコア規則と非一様間隔のモデル化のための効果的な戦略
- Authors: Tien-Hong Lo, Szu-Yu Chen, Yao-Ting Sung, Berlin Chen,
- Abstract要約: 自己教師付き学習表現は、特徴キュレーションの前提となる仮定なしに、非ネイティブ音声における豊かな音響的および言語的パターンをキャプチャする。
ほとんどの先行芸術は、熟練度レベルを名目上の階級として扱い、その順序構造と熟練度ラベル間の一様でない間隔を無視している。
本稿では,SSLと手作りインジケータ機能を組み合わせた効果的なASA手法を提案する。
- 参考スコア(独自算出の注目度): 14.003981407136072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent line of research on automated speaking assessment (ASA) has benefited from self-supervised learning (SSL) representations, which capture rich acoustic and linguistic patterns in non-native speech without underlying assumptions of feature curation. However, speech-based SSL models capture acoustic-related traits but overlook linguistic content, while text-based SSL models rely on ASR output and fail to encode prosodic nuances. Moreover, most prior arts treat proficiency levels as nominal classes, ignoring their ordinal structure and non-uniform intervals between proficiency labels. To address these limitations, we propose an effective ASA approach combining SSL with handcrafted indicator features via a novel modeling paradigm. We further introduce a multi-margin ordinal loss that jointly models both the score ordinality and non-uniform intervals of proficiency labels. Extensive experiments on the TEEMI corpus show that our method consistently outperforms strong baselines and generalizes well to unseen prompts.
- Abstract(参考訳): 自動発話アセスメント(ASA)に関する最近の研究は、機能キュレーションの前提にない非ネイティブ音声における豊かな音響的・言語的パターンを捉え、自己教師付き学習(SSL)表現の恩恵を受けている。
しかし、音声ベースのSSLモデルは音響的特徴を捉えているが、言語的内容を見落としている。
さらに、ほとんどの先行芸術は、熟練度レベルを名目クラスとして扱い、熟練度ラベル間の順序構造や一様でない間隔を無視している。
これらの制約に対処するため、新しいモデリングパラダイムを用いてSSLと手作りインジケータ機能を組み合わせた効果的なASAアプローチを提案する。
さらに,有能なラベルのスコア・オーディナリティと非一様間隔を共同でモデル化するマルチマージン・オーディナル・ロスを導入する。
TEEMIコーパスの広汎な実験により,本手法は強いベースラインを一貫して上回り,目に見えないプロンプトをうまく一般化することを示した。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution [5.1660803395535835]
自己教師付き学習(SSL)は、従来の手法と比較して星級のパフォーマンスを示している。
しかし、SSLベースのASAシステムは、少なくとも3つのデータ関連の課題に直面している。
これらの課題には、限られた注釈付きデータ、学習者の習熟度レベルの不均一分布、CEFR習熟度レベル間の不均一スコア間隔が含まれる。
論文 参考訳(メタデータ) (2024-04-11T09:06:49Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。