論文の概要: Zero-Shot Speech LLMs for Multi-Aspect Evaluation of L2 Speech: Challenges and Opportunities
- arxiv url: http://arxiv.org/abs/2601.16230v1
- Date: Tue, 20 Jan 2026 15:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.350574
- Title: Zero-Shot Speech LLMs for Multi-Aspect Evaluation of L2 Speech: Challenges and Opportunities
- Title(参考訳): L2音声の多視点評価のためのゼロショット音声LLM:課題と機会
- Authors: Aditya Kamlesh Parikh, Cristian Tejedor-Garcia, Catia Cucchiarini, Helmer Strik,
- Abstract要約: 本稿では,5000発のSpeechocean762発声に対して,命令付き言語LLMであるQwen2-Audio-7B-Instructのゼロショット性能を評価する。
このモデルは精度、流派、韻律、完全性のスコアを生成し、+-2許容範囲内の人間の評価と強い一致を示す。
- 参考スコア(独自算出の注目度): 8.300738063140129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An accurate assessment of L2 English pronunciation is crucial for language learning, as it provides personalized feedback and ensures a fair evaluation of individual progress. However, automated scoring remains challenging due to the complexity of sentence-level fluency, prosody, and completeness. This paper evaluates the zero-shot performance of Qwen2-Audio-7B-Instruct, an instruction-tuned speech-LLM, on 5,000 Speechocean762 utterances. The model generates rubric-aligned scores for accuracy, fluency, prosody, and completeness, showing strong agreement with human ratings within +-2 tolerance, especially for high-quality speech. However, it tends to overpredict low-quality speech scores and lacks precision in error detection. These findings demonstrate the strong potential of speech LLMs in scalable pronunciation assessment and suggest future improvements through enhanced prompting, calibration, and phonetic integration to advance Computer-Assisted Pronunciation Training.
- Abstract(参考訳): パーソナライズされたフィードバックを提供し、個々の進歩の公平な評価を確保するため、L2英語発音の正確な評価は言語学習に不可欠である。
しかし、文レベルの流布、韻律、完全性の複雑さのため、自動スコアリングは依然として困難である。
本稿では,5000発のSpeechocean762発声に対して,命令付き言語LLMであるQwen2-Audio-7B-Instructのゼロショット性能を評価する。
このモデルは、精度、流感、韻律、完全性のためのルーブリック整列スコアを生成し、特に高品質なスピーチにおいて、+-2の許容範囲内での人間の評価と強い一致を示す。
しかし、低品質の音声スコアを過大評価する傾向があり、誤り検出の精度に欠ける。
これらの結果から, 音素の発音評価におけるLLMの強い可能性を示し, コンピュータ支援発音訓練を推進するためのプロンプト, キャリブレーション, 音声統合の強化による将来的な改善を提案する。
関連論文リスト
- Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice [52.747242157396315]
同時解釈 (SI) は、翻訳業界における最強のフロンティアの1つである。
Seed-LiveInterpret 2.0は、音声のクローン機能を備えた高忠実で低レイテンシな音声音声合成を実現するエンドツーエンドのSIモデルである。
論文 参考訳(メタデータ) (2025-07-23T14:07:41Z) - Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - Speak & Improve Corpus 2025: an L2 English Speech Corpus for Language Assessment and Feedback [28.53752312060031]
Speak & Improve Corpus 2025は、L2学習者の英語データのデータセットである。
コーパスリリースの目的は、L2音声言語処理システムの開発において大きな課題に取り組むことである。
ELiTのウェブサイトで非商用利用が可能である。
論文 参考訳(メタデータ) (2024-12-16T17:07:26Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。