論文の概要: Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment
- arxiv url: http://arxiv.org/abs/2509.15701v1
- Date: Fri, 19 Sep 2025 07:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.050309
- Title: Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment
- Title(参考訳): 自動発音評価のための微調整大型マルチモーダルモデル
- Authors: Ke Wang, Wenning Wei, Yan Deng, Lei He, Sheng Zhao,
- Abstract要約: 大規模マルチモーダルモデル(LMM)が自動発音評価(APA)に新たな機会をもたらす
本研究では、Speechocean762データセットとプライベートコーパスを用いて、APAのための微調整LMMについて検討する。
微調整はゼロショット設定を著しく上回り、単一粒度タスクの競合的な結果を得る。
- 参考スコア(独自算出の注目度): 20.609743062941803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Pronunciation Assessment (APA) is critical for Computer-Assisted Language Learning (CALL), requiring evaluation across multiple granularities and aspects. Large Multimodal Models (LMMs) present new opportunities for APA, but their effectiveness in fine-grained assessment remains uncertain. This work investigates fine-tuning LMMs for APA using the Speechocean762 dataset and a private corpus. Fine-tuning significantly outperforms zero-shot settings and achieves competitive results on single-granularity tasks compared to public and commercial systems. The model performs well at word and sentence levels, while phoneme-level assessment remains challenging. We also observe that the Pearson Correlation Coefficient (PCC) reaches 0.9, whereas Spearman's rank Correlation Coefficient (SCC) remains around 0.6, suggesting that SCC better reflects ordinal consistency. These findings highlight both the promise and limitations of LMMs for APA and point to future work on fine-grained modeling and rank-aware evaluation.
- Abstract(参考訳): 自動発音評価(APA)は、コンピュータ支援言語学習(CALL)において重要であり、複数の粒度や側面にわたる評価を必要とする。
大規模マルチモーダルモデル(LMM)はAPAに新たな機会をもたらすが、粒度評価におけるそれらの有効性は未だ不明である。
本研究では、Speechocean762データセットとプライベートコーパスを用いて、APAのための微調整LMMについて検討する。
ファインチューニングはゼロショット設定を著しく上回り、パブリックシステムや商用システムと比較して単一粒度タスクの競合的な結果が得られる。
音素レベルの評価は依然として難しいが, 単語・文レベルでは良好に機能する。
また, ピアソン相関係数 (PCC) が0.9に達するのに対し, スピアマンのランク相関係数 (SCC) は0.6程度であり, SCCは順序の整合性をよく反映している。
これらの結果は、APAにおけるLMMの約束と限界と、よりきめ細かなモデリングとランクアウェア評価の今後の課題を浮き彫りにしている。
関連論文リスト
- English Pronunciation Evaluation without Complex Joint Training: LoRA Fine-tuned Speech Multimodal LLM [0.0]
本研究では,ローランド適応 (LoRA) を用いて適応したマルチモーダル大規模言語モデル (MLLM) が,APA (Automatic Pronunciation Assessment) とMDD (Mispronunciation Detection and Diagnosis) を同時に実行可能であることを示す。
我々の微調整手法は、複雑なアーキテクチャの変更や、これらの異なるタスクのための個別のトレーニング手順の必要性を排除します。
本研究は,大規模マルチモーダルモデルを完全微調整なしで適用することにより,統合発音評価システムを構築することができることを示す。
論文 参考訳(メタデータ) (2025-09-03T00:56:18Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。