論文の概要: English Pronunciation Evaluation without Complex Joint Training: LoRA Fine-tuned Speech Multimodal LLM
- arxiv url: http://arxiv.org/abs/2509.02915v1
- Date: Wed, 03 Sep 2025 00:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.37518
- Title: English Pronunciation Evaluation without Complex Joint Training: LoRA Fine-tuned Speech Multimodal LLM
- Title(参考訳): 複雑な関節訓練を伴わない英語発音評価:LoRAファインチューニング音声マルチモーダルLLM
- Authors: Taekyung Ahn, Hosung Nam,
- Abstract要約: 本研究では,ローランド適応 (LoRA) を用いて適応したマルチモーダル大規模言語モデル (MLLM) が,APA (Automatic Pronunciation Assessment) とMDD (Mispronunciation Detection and Diagnosis) を同時に実行可能であることを示す。
我々の微調整手法は、複雑なアーキテクチャの変更や、これらの異なるタスクのための個別のトレーニング手順の必要性を排除します。
本研究は,大規模マルチモーダルモデルを完全微調整なしで適用することにより,統合発音評価システムを構築することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study demonstrates that a Multimodal Large Language Model (MLLM) adapted via Low-Rank Adaptation (LoRA) can perform both Automatic Pronunciation Assessment (APA) and Mispronunciation Detection and Diagnosis (MDD) simultaneously. Leveraging Microsoft's Phi-4-multimodal-instruct, our fine-tuning method eliminates the need for complex architectural changes or separate training procedures conventionally required for these distinct tasks. Fine-tuned on the Speechocean762 dataset, the pronunciation evaluation scores predicted by the model exhibited a strong Pearson Correlation Coefficient (PCC > 0.7) with human-assigned scores, while achieving low Word Error Rate (WER) and Phoneme Error Rate (PER) (both < 0.15). Notably, fine-tuning only the LoRA layers was sufficient to achieve performance levels comparable to those achieved by fine-tuning all audio layers. This research highlights that an integrated pronunciation assessment system can be established by adapting large multimodal models without full fine-tuning, utilizing a significantly simpler training methodology compared to previous joint models designed for simultaneous APA and MDD. This efficient LoRA-based approach paves the way for more accessible, integrated, and effective Computer-Assisted Pronunciation Training (CAPT) technologies for English L2 learners.
- Abstract(参考訳): 本研究では,ローランド適応 (LoRA) を用いて適応したマルチモーダル大規模言語モデル (MLLM) が,APA (Automatic Pronunciation Assessment) とMDD (Mispronunciation Detection and Diagnosis) を同時に実行可能であることを示す。
MicrosoftのPhi-4-multimodal-instructを活用することで、我々の微調整手法は、これらの異なるタスクに従来必要だった複雑なアーキテクチャ変更や個別のトレーニング手順の必要性を排除します。
Speechocean762 データセットを微調整し,Pearson 相関係数 (PCC > 0.7) と人間指定スコア,低単語誤り率 (WER) と低音素誤り率 (PER) (ともに 0.15 であった。
特筆すべきは、LoRA層のみを微調整することで、すべてのオーディオ層を微調整することによって達成されたものと同等のパフォーマンスレベルを達成するのに十分であったことである。
本研究は, APA と MDD を併用して設計した従来のジョイントモデルと比較して, 完全微調整なしで大規模マルチモーダルモデルを適応させることにより, 統合発音評価システムを構築することができることを示す。
この効率的なLoRAベースのアプローチは、よりアクセスしやすく、統合され、効果的なコンピュータ支援発音訓練(CAPT)技術を英語のL2学習者に提供するための道を開く。
関連論文リスト
- ILT-Iterative LoRA Training through Focus-Feedback-Fix for Multilingual Speech Recognition [14.909498057247648]
本研究は,イテレーティブPseudo Labeling戦略と組み合わせたイテレーティブLoRAトレーニング(ILT)を提案する。
Whisper-large-v3とQwen2-Audioをベースとして、3段階のトレーニングプロセスであるフォーカストレーニング、フィードバックトレーニング、修正トレーニングを用いて体系的な実験を行う。
MegaAISの研究チームは、Interspeech 2025 Multilingual Conversational Speech Language Modeling Challenge (MLC-SLM)にこの手法を適用し、トラック1で4位、トラック2で1位を獲得した。
論文 参考訳(メタデータ) (2025-07-11T10:38:51Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - End-to-End Automatic Speech Recognition with Deep Mutual Learning [29.925641799136663]
この論文は、エンドツーエンドASRモデルに深層相互学習を適用する最初のものである。
DMLでは、トレーニングプロセス全体を通して互いに模倣することで、複数のモデルを同時および共同でトレーニングします。
従来の学習法と比較して,dmlは両方のモデリング設定のasr性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T13:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。