論文の概要: A correlation-permutation approach for speech-music encoders model merging
- arxiv url: http://arxiv.org/abs/2506.11403v1
- Date: Fri, 13 Jun 2025 02:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.626458
- Title: A correlation-permutation approach for speech-music encoders model merging
- Title(参考訳): 音声・音楽エンコーダモデル統合のための相関-置換手法
- Authors: Fabian Ritter-Gutierrez, Yi-Cheng Lin, Jeremy H. M Wong, Hung-yi Lee, Eng Siong Chng, Nancy F. Chen,
- Abstract要約: 本稿では,音楽エンコーダの内部層を音声エンコーダと整合させる相関置換手法を提案する。
この方法は、モデルの特徴的相互相関層を層単位で最大化する置換行列を計算する。
この作業により、独立に訓練されたエンコーダから統一されたオーディオモデルを作成することができる。
- 参考スコア(独自算出の注目度): 80.83944654755022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating a unified speech and music model requires expensive pre-training. Model merging can instead create an unified audio model with minimal computational expense. However, direct merging is challenging when the models are not aligned in the weight space. Motivated by Git Re-Basin, we introduce a correlation-permutation approach that aligns a music encoder's internal layers with a speech encoder. We extend previous work to the case of merging transformer layers. The method computes a permutation matrix that maximizes the model's features-wise cross-correlations layer by layer, enabling effective fusion of these otherwise disjoint models. The merged model retains speech capabilities through this method while significantly enhancing music performance, achieving an improvement of 14.83 points in average score compared to linear interpolation model merging. This work allows the creation of unified audio models from independently trained encoders.
- Abstract(参考訳): 統一された音声と音楽モデルを作成するには、高価な事前学習が必要である。
モデルマージは、最小の計算コストで統一されたオーディオモデルを作成することができる。
しかし、モデルが重み空間に整列していない場合、直接マージは困難である。
Git Re-Basinをモチベーションとして,音楽エンコーダの内部層と音声エンコーダを整合させる相関置換手法を提案する。
以前の作業は、トランス層をマージするケースにまで拡張します。
この手法は、モデルの特徴的相互相関層を層単位で最大化する置換行列を計算し、これらの非結合モデルの効果的な融合を可能にする。
統合モデルは, 線形補間モデルと比べ平均点数14.83点の向上を実現し, 演奏性能を著しく向上させながら, この方法で音声能力を維持できる。
この作業により、独立に訓練されたエンコーダから統一されたオーディオモデルを作成することができる。
関連論文リスト
- HM3: Heterogeneous Multi-Class Model Merging [0.0]
本研究では,補助ガードレールモデルを単一多機能モデルに統合するためのトレーニングフリーモデルマージ手法について検討する。
異種ラベル空間とマルチクラス分類器をマージする簡単な手法として、異種多クラスモデルマージ(HM3)を提案する。
BERTをベースとしたガードモデルをマージする有望な結果が報告され、その一部はソースモデルよりも平均F1スコア高くなり、推論時間を最大44%削減する。
論文 参考訳(メタデータ) (2024-09-27T22:42:45Z) - Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。