論文の概要: Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages
- arxiv url: http://arxiv.org/abs/2508.05149v1
- Date: Thu, 07 Aug 2025 08:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.765738
- Title: Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages
- Title(参考訳): 低リソースシナリオにおける音声LLM:データボリューム要件と高リソース言語に対する事前学習の影響
- Authors: Seraphina Fong, Marco Matassoni, Alessio Brutti,
- Abstract要約: 大規模言語モデル (LLM) は, 様々なタスクにおいて, 音声入力を高速に処理し, 最先端の性能に到達する可能性を実証している。
本研究では,SLAM-ASRフレームワークを用いた低リソース自動音声認識におけるLLMの利用について検討する。
単言語または多言語プロジェクタを高ソース言語で事前訓練することにより,データ不足の影響を低減できることを示す。
- 参考スコア(独自算出の注目度): 9.577509224534323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated potential in handling spoken inputs for high-resource languages, reaching state-of-the-art performance in various tasks. However, their applicability is still less explored in low-resource settings. This work investigates the use of Speech LLMs for low-resource Automatic Speech Recognition using the SLAM-ASR framework, where a trainable lightweight projector connects a speech encoder and a LLM. Firstly, we assess training data volume requirements to match Whisper-only performance, re-emphasizing the challenges of limited data. Secondly, we show that leveraging mono- or multilingual projectors pretrained on high-resource languages reduces the impact of data scarcity, especially with small training sets. Using multilingual LLMs (EuroLLM, Salamandra) with whisper-large-v3-turbo, we evaluate performance on several public benchmarks, providing insights for future research on optimizing Speech LLMs for low-resource languages and multilinguality.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 様々なタスクにおいて, 音声入力を高速に処理し, 最先端の性能に到達する可能性を実証している。
しかし、その適用性はまだ低リソース環境では調査されていない。
本研究では、SLAM-ASRフレームワークを用いた低リソース音声認識における音声LLMの使用について検討する。
まず、Whisperのみのパフォーマンスに適合するトレーニングデータボリューム要件を評価し、限られたデータの課題を再強調する。
第2に,単言語あるいは多言語プロジェクタを高ソース言語で事前訓練することにより,データ不足の影響を低減できることを示す。
マルチリンガルLLM(EuroLLM, Salamandra)とwhisper-large-v3-turboを用いて、いくつかの公開ベンチマークの性能を評価し、低リソース言語とマルチリンガル性のための音声LLMの最適化に関する今後の研究の洞察を提供する。
関連論文リスト
- mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks [11.996399504336624]
我々は,大規模言語モデル(LLM)の性能を幅広いタスクで評価するための新しいベンチマークであるmSTEBを紹介する。
我々は,Gemini 2.0 Flash や GPT-4o (Audio) などの主要な LLM や Qwen 2 Audio や Gemma 3 27B といった最先端のオープンモデルの性能を評価する。
論文 参考訳(メタデータ) (2025-06-10T03:15:08Z) - TALL -- A Trainable Architecture for Enhancing LLM Performance in Low-Resource Languages [13.416341692917676]
本稿では,LLMを2つのバイリンガル翻訳モデルに統合したTALL(Trainable Architecture for Enhancing LLM Performance in Low-Resource Languages)を提案する。
ヘブライ語に関する我々の実験は、直接使用、ナイーブ翻訳、微調整アプローチなど、いくつかのベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-05T14:02:12Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - LinguaLIFT: An Effective Two-stage Instruction Tuning Framework for Low-Resource Language Reasoning [28.288949710191158]
大規模言語モデル(LLM)は、多言語事前学習コーパスと命令微調整データによって駆動される、印象的な多言語推論能力を示す。
事前学習コーパスにおける言語不均衡に起因する高リソース言語推論タスクと低リソース言語推論タスクの間には,パフォーマンスギャップが存在する。
LinguaLIFTは低リソース言語推論を進めるための2段階の命令チューニングフレームワークである。
論文 参考訳(メタデータ) (2024-12-17T03:03:17Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。