論文の概要: HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling
- arxiv url: http://arxiv.org/abs/2509.18570v1
- Date: Tue, 23 Sep 2025 02:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.66518
- Title: HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling
- Title(参考訳): HarmoniFuse:マルチタスク音声言語モデリングのためのコンポーネント選択およびプロンプト適応フレームワーク
- Authors: Yuke Si, Runyan Yang, Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang,
- Abstract要約: HarmoniFuseは、マルチタスク音声言語モデリングのためのコンポーネント選択およびプロンプト適応フレームワークである。
バッチインターリーブのトレーニング戦略により、ジョイントアノテーションを必要とせずに、別々のASRとSERデータセットを活用することができる。
- 参考スコア(独自算出の注目度): 52.537908557508324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models have facilitated the development of unified speech language models (SLMs) capable of supporting multiple speech tasks within a shared architecture. However, tasks such as automatic speech recognition (ASR) and speech emotion recognition (SER) rely on distinct types of information: ASR primarily depends on linguistic content, whereas SER requires the integration of both linguistic and paralinguistic cues. Existing multitask SLMs typically adopt naive parameter sharing or prompt-based conditioning without explicitly modeling the differences in information composition required by each task. Such designs risk task interference and performance degradation, especially under limited data conditions. To address these limitations, we propose HarmoniFuse, a component-selective and prompt-adaptive framework for multi-task speech language modeling. HarmoniFuse is designed to harmonize heterogeneous task demands by selecting and fusing task-relevant components of speech representations. Specifically, it integrates a gated speech encoder to extract task-specific acoustic features and a prompt-adaptive dynamic fusion module to aggregate transformer layers based on task characteristics. In addition, a batch-interleaved training strategy enables leveraging separate ASR and SER datasets without requiring joint annotation. Experimental results demonstrate that HarmoniFuse improves both ASR and SER performance, offering a scalable and robust solution for multitask speech understanding under realistic data constraints.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、共有アーキテクチャ内で複数の音声タスクをサポートすることができる統一言語モデル(SLM)の開発を促進する。
しかしながら、自動音声認識(ASR)や音声感情認識(SER)といったタスクは、異なるタイプの情報に依存している。
既存のマルチタスクSLMでは、各タスクに必要な情報構成の違いを明示的にモデル化することなく、単純パラメータ共有やプロンプトベースの条件付けを採用するのが一般的である。
このような設計は、特に限られたデータ条件下でのタスク干渉と性能劣化を危険にさらす。
これらの制約に対処するため,マルチタスク言語モデリングのためのコンポーネント選択型およびプロンプト適応型フレームワークであるHarmoniFuseを提案する。
HarmoniFuseは、音声表現のタスク関連コンポーネントを選択し、融合させることにより、不均一なタスク要求を調和させるように設計されている。
具体的には、ゲート音声エンコーダを統合し、タスク固有の音響特徴を抽出し、プロンプト適応動的融合モジュールをタスク特性に基づいて変換器層を集約する。
さらに、バッチインターリーブトレーニング戦略により、ジョイントアノテーションを必要とせずに、別々のASRとSERデータセットを活用することができる。
実験により、HarmoniFuseはASRとSERの両方の性能を改善し、現実的なデータ制約下でのマルチタスク音声理解のためのスケーラブルで堅牢なソリューションを提供することを示した。
関連論文リスト
- Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers [8.890811356340953]
General-Purpose Audio (GPA) は、単一の大規模言語モデル(LLM)アーキテクチャに複数のコア音声タスクを統合する統合オーディオ基盤モデルである。
GPAは、共有された離散オーディオトークン空間で動作し、命令駆動タスク誘導をサポートし、単一の自己回帰モデルが柔軟にTS、ASR、VCを実現する。
論文 参考訳(メタデータ) (2026-01-15T13:47:55Z) - LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs [29.853196429972204]
LiSTENは、大規模な言語モデルをオーディオ言語タスクに適用するためのフレームワークである。
提案手法は,大規模ASRやキャプションデータセットへの依存を低減し,トレーニング可能なパラメータの少ない競合性能を実現し,シングルステージプロセスによるトレーニングを簡略化する。
論文 参考訳(メタデータ) (2025-05-24T05:28:22Z) - SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions [48.02083833667388]
仮想アシスタントインタラクションのための言語モデルであるSELMAを提示し,評価する。
オーディオエンコーダとLarge Language Modelの両方のパラメータ効率訓練に低ランク適応モジュールを用いる。
論文 参考訳(メタデータ) (2025-01-31T18:30:36Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。