論文の概要: English Pronunciation Evaluation without Complex Joint Training: LoRA Fine-tuned Speech Multimodal LLM
- arxiv url: http://arxiv.org/abs/2509.02915v1
- Date: Wed, 03 Sep 2025 00:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.37518
- Title: English Pronunciation Evaluation without Complex Joint Training: LoRA Fine-tuned Speech Multimodal LLM
- Title(参考訳): 複雑な関節訓練を伴わない英語発音評価:LoRAファインチューニング音声マルチモーダルLLM
- Authors: Taekyung Ahn, Hosung Nam,
- Abstract要約: 本研究では,ローランド適応 (LoRA) を用いて適応したマルチモーダル大規模言語モデル (MLLM) が,APA (Automatic Pronunciation Assessment) とMDD (Mispronunciation Detection and Diagnosis) を同時に実行可能であることを示す。
我々の微調整手法は、複雑なアーキテクチャの変更や、これらの異なるタスクのための個別のトレーニング手順の必要性を排除します。
本研究は,大規模マルチモーダルモデルを完全微調整なしで適用することにより,統合発音評価システムを構築することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study demonstrates that a Multimodal Large Language Model (MLLM) adapted via Low-Rank Adaptation (LoRA) can perform both Automatic Pronunciation Assessment (APA) and Mispronunciation Detection and Diagnosis (MDD) simultaneously. Leveraging Microsoft's Phi-4-multimodal-instruct, our fine-tuning method eliminates the need for complex architectural changes or separate training procedures conventionally required for these distinct tasks. Fine-tuned on the Speechocean762 dataset, the pronunciation evaluation scores predicted by the model exhibited a strong Pearson Correlation Coefficient (PCC > 0.7) with human-assigned scores, while achieving low Word Error Rate (WER) and Phoneme Error Rate (PER) (both < 0.15). Notably, fine-tuning only the LoRA layers was sufficient to achieve performance levels comparable to those achieved by fine-tuning all audio layers. This research highlights that an integrated pronunciation assessment system can be established by adapting large multimodal models without full fine-tuning, utilizing a significantly simpler training methodology compared to previous joint models designed for simultaneous APA and MDD. This efficient LoRA-based approach paves the way for more accessible, integrated, and effective Computer-Assisted Pronunciation Training (CAPT) technologies for English L2 learners.
- Abstract(参考訳): 本研究では,ローランド適応 (LoRA) を用いて適応したマルチモーダル大規模言語モデル (MLLM) が,APA (Automatic Pronunciation Assessment) とMDD (Mispronunciation Detection and Diagnosis) を同時に実行可能であることを示す。
MicrosoftのPhi-4-multimodal-instructを活用することで、我々の微調整手法は、これらの異なるタスクに従来必要だった複雑なアーキテクチャ変更や個別のトレーニング手順の必要性を排除します。
Speechocean762 データセットを微調整し,Pearson 相関係数 (PCC > 0.7) と人間指定スコア,低単語誤り率 (WER) と低音素誤り率 (PER) (ともに 0.15 であった。
特筆すべきは、LoRA層のみを微調整することで、すべてのオーディオ層を微調整することによって達成されたものと同等のパフォーマンスレベルを達成するのに十分であったことである。
本研究は, APA と MDD を併用して設計した従来のジョイントモデルと比較して, 完全微調整なしで大規模マルチモーダルモデルを適応させることにより, 統合発音評価システムを構築することができることを示す。
この効率的なLoRAベースのアプローチは、よりアクセスしやすく、統合され、効果的なコンピュータ支援発音訓練(CAPT)技術を英語のL2学習者に提供するための道を開く。
関連論文リスト
- Session-Level Spoken Language Assessment with a Multimodal Foundation Model via Multi-Target Learning [8.717610965852037]
音声言語アセスメント(SLA)は、学習者の発話能力を自然発話から推定する。
本稿では,セッションレベル評価を単一パスで行う,新しいマルチモーダル基礎モデルを提案する。
論文 参考訳(メタデータ) (2025-09-19T14:33:05Z) - Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment [20.609743062941803]
大規模マルチモーダルモデル(LMM)が自動発音評価(APA)に新たな機会をもたらす
本研究では、Speechocean762データセットとプライベートコーパスを用いて、APAのための微調整LMMについて検討する。
微調整はゼロショット設定を著しく上回り、単一粒度タスクの競合的な結果を得る。
論文 参考訳(メタデータ) (2025-09-19T07:23:25Z) - Objective Soups: Multilingual Multi-Task Modeling for Speech Processing [69.52720282028385]
マルチ言語・マルチタスク音声処理(MSP)のための単一モデルの訓練は,タスク間の目的の相反によって著しく妨げられる。
本稿では,多目的MSPの3つの定式化について検討し,これらをthabfobjective soup recipesと呼ぶ。
我々の研究は、階層型MOOが最先端のMSPモデルを構築する上で、より効率的でスケーラブルなアプローチであることを実証している。
論文 参考訳(メタデータ) (2025-08-12T07:01:09Z) - ILT-Iterative LoRA Training through Focus-Feedback-Fix for Multilingual Speech Recognition [14.909498057247648]
本研究は,イテレーティブPseudo Labeling戦略と組み合わせたイテレーティブLoRAトレーニング(ILT)を提案する。
Whisper-large-v3とQwen2-Audioをベースとして、3段階のトレーニングプロセスであるフォーカストレーニング、フィードバックトレーニング、修正トレーニングを用いて体系的な実験を行う。
MegaAISの研究チームは、Interspeech 2025 Multilingual Conversational Speech Language Modeling Challenge (MLC-SLM)にこの手法を適用し、トラック1で4位、トラック2で1位を獲得した。
論文 参考訳(メタデータ) (2025-07-11T10:38:51Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - End-to-End Automatic Speech Recognition with Deep Mutual Learning [29.925641799136663]
この論文は、エンドツーエンドASRモデルに深層相互学習を適用する最初のものである。
DMLでは、トレーニングプロセス全体を通して互いに模倣することで、複数のモデルを同時および共同でトレーニングします。
従来の学習法と比較して,dmlは両方のモデリング設定のasr性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T13:52:06Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。