Fugu-MT 論文翻訳(概要): Spoken Grammar Assessment Using LLM

論文の概要: Spoken Grammar Assessment Using LLM

arxiv url: http://arxiv.org/abs/2410.01579v1
Date: Wed, 2 Oct 2024 14:15:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 16:54:49.203581
Title: Spoken Grammar Assessment Using LLM
Title（参考訳）: LLMを用いた音声文法評価
Authors: Sunil Kumar Kopparapu, Chitralekha Bhat, Ashish Panda,
Abstract要約: 音声言語評価システム(SLA: Spoken Language Assessment)は, 話者の発音と口頭流速を分析し, 読み上げ音声と自発音声をそれぞれ分析する。ほとんどのWLAシステムは、キュレートされた有限サイズの文データベースから一連の文を表示し、テスト質問を予測し、自分自身を訓練することができる。音声音声から言語文法を評価するための新しいエンドツーエンドSLAシステムを提案し、WLAシステムを冗長にする。
参考スコア（独自算出の注目度）: 10.761744330206065
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Spoken language assessment (SLA) systems restrict themselves to evaluating the pronunciation and oral fluency of a speaker by analysing the read and spontaneous spoken utterances respectively. The assessment of language grammar or vocabulary is relegated to written language assessment (WLA) systems. Most WLA systems present a set of sentences from a curated finite-size database of sentences thereby making it possible to anticipate the test questions and train oneself. In this paper, we propose a novel end-to-end SLA system to assess language grammar from spoken utterances thus making WLA systems redundant; additionally, we make the assessment largely unteachable by employing a large language model (LLM) to bring in variations in the test. We further demonstrate that a hybrid automatic speech recognition (ASR) with a custom-built language model outperforms the state-of-the-art ASR engine for spoken grammar assessment.
Abstract（参考訳）: 音声言語アセスメント(SLA)システムは、読み上げ音声と自発音声をそれぞれ分析することにより、話者の発音と口頭流速を評価することを制限する。言語文法や語彙の評価は、文章言語評価システム(WLA)に委ねられる。ほとんどのWLAシステムは、キュレートされた有限サイズの文データベースから一連の文を表示し、テスト質問を予測し、自分自身を訓練することができる。本稿では,音声音声からの言語文法を冗長に評価する新しいエンドツーエンドSLAシステムを提案する。また,大規模な言語モデル(LLM)を用いることで,その評価をほぼ不可能にする。さらに、カスタム構築言語モデルを用いたハイブリッド自動音声認識(ASR)が、音声文法評価のための最先端のASRエンジンより優れていることを示す。

関連論文リスト

SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文参考訳（メタデータ） (2025-07-25T15:12:06Z)
Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文参考訳（メタデータ） (2025-05-25T08:37:55Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Pronunciation Assessment with Multi-modal Large Language Models [10.35401596425946]
大規模言語モデル(LLM)に基づくスコアリングシステムを提案する。音声エンコーダは、まず学習者の音声を文脈的特徴にマッピングする。アダプタ層は、これらの機能を潜在空間に埋め込まれたテキストに合わせるように変換する。
論文参考訳（メタデータ） (2024-07-12T12:16:14Z)
Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models [38.64792118903994]
SILLMのジェンダーバイアスを4つの意味的タスクで評価した。分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
論文参考訳（メタデータ） (2024-07-09T15:35:43Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文参考訳（メタデータ） (2024-02-28T15:15:39Z)
Neural Automated Writing Evaluation with Corrective Feedback [4.0230668961961085]
本稿では,修正フィードバックを用いた自動筆記評価システムを提案する。このシステムにより、言語学習者はエッセイの執筆テストをシミュレートできる。また、無数のエッセイを手作業で修正することの負担を軽減する。
論文参考訳（メタデータ） (2024-02-27T15:42:33Z)
Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文参考訳（メタデータ） (2023-06-07T12:14:16Z)
Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics [9.168525887419388]
Kaldi と Whisper を用いて,オランダ語読解精度を自動評価するための6つの最先端 ASR システムの評価を行った。その結果、我々の最も成功したシステムは人的評価と実質的な合意に達した。
論文参考訳（メタデータ） (2023-06-06T06:49:58Z)
Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。 PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文参考訳（メタデータ） (2022-11-15T01:13:39Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。 SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-10-12T05:43:30Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。