論文の概要: Unifying Model and Layer Fusion for Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2511.08389v1
- Date: Wed, 12 Nov 2025 01:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.792149
- Title: Unifying Model and Layer Fusion for Speech Foundation Models
- Title(参考訳): 音声基礎モデルの統一モデルと層融合
- Authors: Yi-Jen Shih, David Harwath,
- Abstract要約: 複数の上流音声モデルの融合を可能にするインタフェースモジュールを提案する。
本研究は,様々な音声タスクにまたがって,様々な自己教師型モデルと教師型モデルの実験を行う。
以上の結果から,提案インタフェースは上流モデル選択に適した場合,さらなる性能向上をもたらすことが示された。
- 参考スコア(独自算出の注目度): 28.156414248551304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Foundation Models have gained significant attention recently. Prior works have shown that the fusion of representations from multiple layers of the same model or the fusion of multiple models can improve performance on downstream tasks. We unify these two fusion strategies by proposing an interface module that enables fusion across multiple upstream speech models while integrating information across their layers. We conduct extensive experiments on different self-supervised and supervised models across various speech tasks, including ASR and paralinguistic analysis, and demonstrate that our method outperforms prior fusion approaches. We further analyze its scalability concerning model size and count, highlighting the importance of selecting appropriate upstream models. Our results show that the proposed interface provides an additional performance boost when given a suitable upstream model selection, making it a promising approach for utilizing Speech Foundation Models.
- Abstract(参考訳): 音声基礎モデルは近年大きな注目を集めている。
以前の研究では、同じモデルの複数のレイヤからの表現の融合や、複数のモデルの融合が下流タスクのパフォーマンスを向上させることが示されている。
我々はこれらの2つの融合戦略を、複数の上流音声モデルの融合を可能にするインタフェースモジュールの提案と、それらの層にまたがる情報の統合によって統合する。
我々は、ASRやパラ言語分析など、様々な音声タスクにまたがる様々な自己監督モデルおよび教師付きモデルについて広範な実験を行い、本手法が先行融合法よりも優れていることを示す。
さらに、モデルサイズとカウントに関するスケーラビリティを分析し、適切な上流モデルを選択することの重要性を強調します。
以上の結果から,提案インタフェースは上流モデル選択に適した場合のさらなる性能向上を実現し,音声基礎モデルの利用に有望なアプローチであることが示された。
関連論文リスト
- Merge and Guide: Unifying Model Merging and Guided Decoding for Controllable Multi-Objective Generation [49.98025799046136]
Merge-And-GuidEは、ガイド付きデコーディングにモデルマージを利用する2段階のフレームワークである。
ステージ1では、MAGEはガイダンスとベースモデルの互換性の問題を解決する。
ステージ2では、明示的で暗黙的な値モデルを統一的なガイダンスプロキシにマージします。
論文 参考訳(メタデータ) (2025-10-04T11:10:07Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - [MASK] is All You Need [28.90875822599164]
離散状態モデルを用いてMasked Generative と Non-autoregressive Diffusion を接続する。
離散状態モデルで[MASK]を活用することで、Masked Generative と Non-autoregressive Diffusion モデルを橋渡しできる。
論文 参考訳(メタデータ) (2024-12-09T18:59:56Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。