論文の概要: Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning
- arxiv url: http://arxiv.org/abs/2508.12591v1
- Date: Mon, 18 Aug 2025 02:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.952298
- Title: Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning
- Title(参考訳): モダリティ限界を超えて:効果的なカリキュラム学習による評価自動評価のための統一MLLMアプローチ
- Authors: Yu-Hsuan Fang, Tien-Hong Lo, Yao-Ting Sung, Berlin Chen,
- Abstract要約: MLLM(Multimodal Large Language Models)は、総合的自動評価(ASA)のための前例のない機会を提供する
我々は, 音声のより堅牢なモデリング基盤を確立するために, 音声ファースト・マルチモーダル・トレーニング(SFMT)を提案する。
特に、SFMTは、従来のトレーニング手法よりも絶対精度を4%向上させるという、デリバリ面の評価に優れています。
- 参考スコア(独自算出の注目度): 5.148672971653068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional Automated Speaking Assessment (ASA) systems exhibit inherent modality limitations: text-based approaches lack acoustic information while audio-based methods miss semantic context. Multimodal Large Language Models (MLLM) offer unprecedented opportunities for comprehensive ASA by simultaneously processing audio and text within unified frameworks. This paper presents a very first systematic study of MLLM for comprehensive ASA, demonstrating the superior performance of MLLM across the aspects of content and language use . However, assessment on the delivery aspect reveals unique challenges, which is deemed to require specialized training strategies. We thus propose Speech-First Multimodal Training (SFMT), leveraging a curriculum learning principle to establish more robust modeling foundations of speech before cross-modal synergetic fusion. A series of experiments on a benchmark dataset show MLLM-based systems can elevate the holistic assessment performance from a PCC value of 0.783 to 0.846. In particular, SFMT excels in the evaluation of the delivery aspect, achieving an absolute accuracy improvement of 4% over conventional training approaches, which also paves a new avenue for ASA.
- Abstract(参考訳): テキストベースのアプローチは音響情報を欠いているが、音声ベースの手法は意味的文脈を見逃している。
MLLM(Multimodal Large Language Models)は、統合されたフレームワーク内で音声とテキストを同時に処理することで、包括的なASAの機会を提供する。
本稿では,包括的ASAのためのMLLMを初めて体系的に研究し,コンテンツと言語利用の両面においてMLLMの優れた性能を示す。
しかし, 納品面での評価は, 専門的な訓練戦略を必要とすると考えられる, 独特な課題を浮き彫りにしている。
そこで本研究では,言語学習の原則を活かして,音声のより堅牢なモデリング基盤を確立することを目的とした,言語ファースト・マルチモーダルトレーニング(SFMT)を提案する。
ベンチマークデータセット上の一連の実験により、MLLMベースのシステムは、PCC値 0.783 から 0.846 までの総合評価性能を向上させることができる。
特に、SFMTはデリバリ面の評価に優れており、従来のトレーニングアプローチよりも絶対精度を4%向上させ、ASAの新たな道筋を舗装している。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - MLLM-CL: Continual Learning for Multimodal Large Language Models [62.90736445575181]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。
我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-05T17:58:13Z) - From Course to Skill: Evaluating LLM Performance in Curricular Analytics [2.5104969073405976]
大規模言語モデル(LLM)は、大規模で非構造化のカリキュラムデータを扱うことを約束している。
我々は,LLMや従来のNLP法に基づく4つのテキストアライメント戦略を体系的に評価した。
本研究は, 簡潔かつ抽象的なカリキュラム文書の分析において, LLMsが持つ可能性を明らかにするとともに, その性能がモデル選択やプロンプト戦略に大きく依存することを明らかにする。
論文 参考訳(メタデータ) (2025-05-05T02:46:23Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。