Fugu-MT 論文翻訳(概要): Automated Speech Scoring System Under The Lens: Evaluating and interpreting the linguistic cues for language proficiency

論文の概要: Automated Speech Scoring System Under The Lens: Evaluating and interpreting the linguistic cues for language proficiency

arxiv url: http://arxiv.org/abs/2111.15156v1
Date: Tue, 30 Nov 2021 06:28:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 15:49:24.682877
Title: Automated Speech Scoring System Under The Lens: Evaluating and interpreting the linguistic cues for language proficiency
Title（参考訳）: レンズ下の音声自動スコアリングシステム : 言語能力のための言語手がかりの評価と解釈
Authors: Pakhi Bamdev, Manraj Singh Grover, Yaman Kumar Singla, Payman Vafaee, Mika Hama, Rajiv Ratn Shah
Abstract要約: 従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
参考スコア（独自算出の注目度）: 26.70127591966917
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: English proficiency assessments have become a necessary metric for filtering and selecting prospective candidates for both academia and industry. With the rise in demand for such assessments, it has become increasingly necessary to have the automated human-interpretable results to prevent inconsistencies and ensure meaningful feedback to the second language learners. Feature-based classical approaches have been more interpretable in understanding what the scoring model learns. Therefore, in this work, we utilize classical machine learning models to formulate a speech scoring task as both a classification and a regression problem, followed by a thorough study to interpret and study the relation between the linguistic cues and the English proficiency level of the speaker. First, we extract linguist features under five categories (fluency, pronunciation, content, grammar and vocabulary, and acoustic) and train models to grade responses. In comparison, we find that the regression-based models perform equivalent to or better than the classification approach. Second, we perform ablation studies to understand the impact of each of the feature and feature categories on the performance of proficiency grading. Further, to understand individual feature contributions, we present the importance of top features on the best performing algorithm for the grading task. Third, we make use of Partial Dependence Plots and Shapley values to explore feature importance and conclude that the best performing trained model learns the underlying rubrics used for grading the dataset used in this study.
Abstract（参考訳）: 英語の熟練度評価は、学術と産業の両方の候補をフィルタリングし、選定するために必要な指標となっている。このような評価の需要が高まり,不整合を防止し,第2言語学習者に対する有意義なフィードバックを確保するためには,自動的な人間解釈結果を得ることがますます求められている。特徴に基づく古典的アプローチは、スコアリングモデルが何を学習するかを理解する上でより解釈可能である。そこで本研究では,従来の機械学習モデルを用いて,音声スコアリングタスクを分類と回帰問題の両方として定式化し,その後,言語的手がかりと話者の英語習熟度との関係を解釈・研究するための徹底的な研究を行った。まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。比較して,回帰に基づくモデルは分類アプローチと同等かそれ以上の性能を持つことがわかった。第2に,各特徴カテゴリと特徴カテゴリが熟練度グルーピングのパフォーマンスに与える影響を理解するためのアブレーション研究を行った。さらに,個々の特徴の寄与を理解するために,評価課題における最良性能アルゴリズムにおける上位特徴の重要性を示す。第3に,部分依存プロットとshapley値を用いて特徴量について検討し,最善の性能トレーニングモデルが,本研究で使用したデータセットの採点に使用されるルーブリックを学習すると結論づける。

関連論文リスト

On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文参考訳（メタデータ） (2026-01-09T22:01:56Z)
AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文参考訳（メタデータ） (2025-07-17T00:39:18Z)
A linguistically-motivated evaluation methodology for unraveling model's abilities in reading comprehension tasks [10.181408678232055]
モデルのサイズやアーキテクチャに関わらず,特定の例が常に低いスコアを得られるという直感に基づいて,理解タスクを読むための評価手法を提案する。この複雑さを特徴付けるためのセマンティックフレームアノテーションを活用し、モデルの難易度を考慮に入れうる7つの複雑さ要因について検討する。
論文参考訳（メタデータ） (2025-01-29T11:05:20Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
Why do you cite? An investigation on citation intents and decision-making classification processes [1.7812428873698407]
本研究は,引用意図を信頼して分類することの重要性を強調する。本稿では,citation Intent Classification (CIC) のための高度なアンサンブル戦略を用いた研究について述べる。我々のモデルの1つは、SciCiteベンチマークで89.46%のマクロF1スコアを持つ新しい最先端(SOTA)として設定されている。
論文参考訳（メタデータ） (2024-07-18T09:29:33Z)
Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文参考訳（メタデータ） (2024-04-29T17:58:36Z)
Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文参考訳（メタデータ） (2024-02-11T18:26:18Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Under the Microscope: Interpreting Readability Assessment Models for Filipino [0.0]
フィリピンにおける機械学習に基づく可読性評価モデルを,グローバルモデルとローカルモデルによる解釈によって識別する。その結果,大域的解釈から上位特徴を学習したモデルを用いることで,スピアマン相関による特徴を用いたモデルよりも高い性能が得られることがわかった。
論文参考訳（メタデータ） (2021-10-01T01:27:10Z)
Beyond the Tip of the Iceberg: Assessing Coherence of Text Classifiers [0.05857406612420462]
大規模で事前訓練された言語モデルは、既存の言語理解タスクにおいて人間のレベルと超人的精度を達成する。予測コヒーレンスの新しい尺度による評価システムを提案する。
論文参考訳（メタデータ） (2021-09-10T15:04:23Z)
Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文参考訳（メタデータ） (2021-08-30T07:00:28Z)
General-Purpose Speech Representation Learning through a Self-Supervised Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文参考訳（メタデータ） (2021-02-03T08:13:21Z)
Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文参考訳（メタデータ） (2020-05-30T22:14:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。