論文の概要: Unifying Model and Layer Fusion for Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2511.08389v1
- Date: Wed, 12 Nov 2025 01:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.792149
- Title: Unifying Model and Layer Fusion for Speech Foundation Models
- Title(参考訳): 音声基礎モデルの統一モデルと層融合
- Authors: Yi-Jen Shih, David Harwath,
- Abstract要約: 複数の上流音声モデルの融合を可能にするインタフェースモジュールを提案する。
本研究は,様々な音声タスクにまたがって,様々な自己教師型モデルと教師型モデルの実験を行う。
以上の結果から,提案インタフェースは上流モデル選択に適した場合,さらなる性能向上をもたらすことが示された。
- 参考スコア(独自算出の注目度): 28.156414248551304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Foundation Models have gained significant attention recently. Prior works have shown that the fusion of representations from multiple layers of the same model or the fusion of multiple models can improve performance on downstream tasks. We unify these two fusion strategies by proposing an interface module that enables fusion across multiple upstream speech models while integrating information across their layers. We conduct extensive experiments on different self-supervised and supervised models across various speech tasks, including ASR and paralinguistic analysis, and demonstrate that our method outperforms prior fusion approaches. We further analyze its scalability concerning model size and count, highlighting the importance of selecting appropriate upstream models. Our results show that the proposed interface provides an additional performance boost when given a suitable upstream model selection, making it a promising approach for utilizing Speech Foundation Models.
- Abstract(参考訳): 音声基礎モデルは近年大きな注目を集めている。
以前の研究では、同じモデルの複数のレイヤからの表現の融合や、複数のモデルの融合が下流タスクのパフォーマンスを向上させることが示されている。
我々はこれらの2つの融合戦略を、複数の上流音声モデルの融合を可能にするインタフェースモジュールの提案と、それらの層にまたがる情報の統合によって統合する。
我々は、ASRやパラ言語分析など、様々な音声タスクにまたがる様々な自己監督モデルおよび教師付きモデルについて広範な実験を行い、本手法が先行融合法よりも優れていることを示す。
さらに、モデルサイズとカウントに関するスケーラビリティを分析し、適切な上流モデルを選択することの重要性を強調します。
以上の結果から,提案インタフェースは上流モデル選択に適した場合のさらなる性能向上を実現し,音声基礎モデルの利用に有望なアプローチであることが示された。
関連論文リスト
- Merge and Guide: Unifying Model Merging and Guided Decoding for Controllable Multi-Objective Generation [49.98025799046136]
Merge-And-GuidEは、ガイド付きデコーディングにモデルマージを利用する2段階のフレームワークである。
ステージ1では、MAGEはガイダンスとベースモデルの互換性の問題を解決する。
ステージ2では、明示的で暗黙的な値モデルを統一的なガイダンスプロキシにマージします。
論文 参考訳(メタデータ) (2025-10-04T11:10:07Z) - Black-box Model Merging for Language-Model-as-a-Service with Massive Model Repositories [21.899117703417517]
進化的アルゴリズム(Evo-Merging)に基づく微分自由最適化フレームワークを提案する。
提案手法は,(1) モデル間の不適切な情報や冗長な情報を識別・フィルタリングする疎結合型デノベーション,(2) 関連モデルに対する最適な組合せ重み付けを動的に計算するシグナック・アウェア・スケーリングの2つの重要な要素から構成される。
提案手法は,様々なタスクにおける最先端の成果を達成し,既存の強靭なベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-16T10:55:50Z) - SE-Merging: A Self-Enhanced Approach for Dynamic Model Merging [60.83635006372403]
textttSE-Mergingは自己拡張型モデルマージフレームワークである。
textttSE-Mergingは、追加のトレーニングなしで動的モデルのマージを実現することを示す。
論文 参考訳(メタデータ) (2025-06-22T18:38:41Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition [20.989787824067143]
XR-VLMは、相互関係をモデル化することによって微妙な違いを発見する新しいメカニズムである。
マルチパースペクティブな記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。
提案手法は,現在の最先端手法と比較して,大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-03-10T08:58:05Z) - [MASK] is All You Need [28.90875822599164]
離散状態モデルを用いてMasked Generative と Non-autoregressive Diffusion を接続する。
離散状態モデルで[MASK]を活用することで、Masked Generative と Non-autoregressive Diffusion モデルを橋渡しできる。
論文 参考訳(メタデータ) (2024-12-09T18:59:56Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。