論文の概要: Assessment of L2 Oral Proficiency using Speech Large Language Models
- arxiv url: http://arxiv.org/abs/2505.21148v1
- Date: Tue, 27 May 2025 12:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.658511
- Title: Assessment of L2 Oral Proficiency using Speech Large Language Models
- Title(参考訳): 音声大言語モデルを用いたL2口語習熟度の評価
- Authors: Rao Ma, Mengjie Qian, Siyuan Tang, Stefano Bannò, Kate M. Knill, Mark J. F. Gales,
- Abstract要約: L2英語話者の人口増加に伴い、音声言語評価のための自動グレーダの開発需要が高まっている。
近年,多モード大言語モデル (LLM) の進歩に伴い,L2口語習熟度学級としての可能性を探究する。
- 参考スコア(独自算出の注目度): 32.53590403242704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing population of L2 English speakers has increased the demand for developing automatic graders for spoken language assessment (SLA). Historically, statistical models, text encoders, and self-supervised speech models have been utilised for this task. However, cascaded systems suffer from the loss of information, while E2E graders also have limitations. With the recent advancements of multi-modal large language models (LLMs), we aim to explore their potential as L2 oral proficiency graders and overcome these issues. In this work, we compare various training strategies using regression and classification targets. Our results show that speech LLMs outperform all previous competitive baselines, achieving superior performance on two datasets. Furthermore, the trained grader demonstrates strong generalisation capabilities in the cross-part or cross-task evaluation, facilitated by the audio understanding knowledge acquired during LLM pre-training.
- Abstract(参考訳): L2英語話者の人口増加に伴い、音声言語アセスメント(SLA)のための自動グレーダの開発需要が高まっている。
歴史的に、このタスクには統計モデル、テキストエンコーダ、自己教師付き音声モデルが利用されてきた。
しかし、カスケードシステムは情報の喪失に悩まされ、E2Eグレーダにも制限がある。
近年の多モード大言語モデル (LLM) の進歩により,L2口語習熟度学級としての可能性を探り,これらの課題を克服することを目指している。
本研究では,回帰と分類目標を用いた各種学習戦略を比較した。
以上の結果から,LLMは従来の競合ベースラインよりも優れており,2つのデータセット上での優れた性能を実現していることがわかった。
さらに,LLM事前学習中に得られた音声理解知識によって促進されるクロスパート評価やクロスタスク評価において,学習用グレーダは強力な一般化能力を示す。
関連論文リスト
- Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.774607166378613]
自己教師付き事前教師付きトレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。
我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-27T12:50:55Z) - Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。
本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文 参考訳(メタデータ) (2025-05-05T12:36:03Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。