論文の概要: Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Understanding under Limited Speech data
- arxiv url: http://arxiv.org/abs/2509.15389v1
- Date: Thu, 18 Sep 2025 19:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.884605
- Title: Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Understanding under Limited Speech data
- Title(参考訳): 音声データを用いた音声理解のための大規模音声モデルの微調整の検討
- Authors: Youngwon Choi, Jaeyoon Jung, Hyeonyu Kim, Huu-Kim Nguyen, Hwayeon Kim,
- Abstract要約: 音声言語モデル(LALM)は、音声関連タスクの強力なツールとして登場したが、微調整には未熟なままである。
テキストのみ、直接混合、カリキュラム学習などの微調整方式が音声言語理解(SLU)に与える影響を示す。
言語間SLUでは、ソース言語音声データとターゲット言語テキストと、最小のターゲット言語音声データを組み合わせることで、効果的な適応が可能となる。
- 参考スコア(独自算出の注目度): 5.118833405217628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio Language Models (LALMs) have emerged as powerful tools for speech-related tasks but remain underexplored for fine-tuning, especially with limited speech data. To bridge this gap, we systematically examine how different fine-tuning schemes including text-only, direct mixing, and curriculum learning affect spoken language understanding (SLU), focusing on scenarios where text-label pairs are abundant while paired speech-label data are limited. Results show that LALMs already achieve competitive performance with text-only fine-tuning, highlighting their strong generalization ability. Adding even small amounts of speech data (2-5%) yields substantial further gains, with curriculum learning particularly effective under scarce data. In cross-lingual SLU, combining source-language speech data with target-language text and minimal target-language speech data enables effective adaptation. Overall, this study provides practical insights into the LALM fine-tuning under realistic data constraints.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は、音声関連タスクの強力なツールとして登場したが、微調整には未熟である。
このギャップを埋めるために、テキストのみ、直接混合、カリキュラム学習を含む様々な微調整スキームが音声言語理解(SLU)にどのように影響するかを体系的に検討し、ペア音声ラベルデータが制限されている間にテキストラベルペアが豊富であるシナリオに焦点を当てる。
その結果,LALMはテキストのみの微調整と競合する性能を示し,高い一般化能力を示している。
少量の音声データ(2-5%)を追加すると、さらに大きな利益が得られ、特に少ないデータの下でのカリキュラム学習が効果的である。
言語間SLUでは、ソース言語音声データとターゲット言語テキストと、最小のターゲット言語音声データを組み合わせることで、効果的な適応が可能となる。
本研究は,現実的なデータ制約下でのLALM微調整に関する実践的な知見を提供する。
関連論文リスト
- TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。
我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。
TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文 参考訳(メタデータ) (2025-06-01T09:27:55Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。