論文の概要: Model Merging with Functional Dual Anchors
- arxiv url: http://arxiv.org/abs/2510.21223v1
- Date: Fri, 24 Oct 2025 07:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.396149
- Title: Model Merging with Functional Dual Anchors
- Title(参考訳): 機能的デュアルアンカーを用いたモデルマージ
- Authors: Kexuan Shi, Yandong Wen, Weiyang Liu,
- Abstract要約: モデルマージは、共有基盤モデルの複数の微調整されたチェックポイントから知識を統合するための効率的な戦略である。
本稿では、入力表現空間をモデル化するフレームワークであるFunctional Dual Anchors(FDA)を提案する。
FDAは、誘導勾配がタスクベクトルと一致し、事前訓練されたモデルに対してタスク固有の機能シフトをキャプチャする合成入力である。
- 参考スコア(独自算出の注目度): 21.76214716818033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging is an efficient post-training strategy for integrating knowledge from multiple finetuned checkpoints of a shared foundation model. Existing methods operate in the parameter space, combining task vectors to mitigate conflicts, but remain constrained by parameter inconsistencies. We propose Functional Dual Anchors (FDAs), a framework that instead models the input-representation space. FDAs are synthetic inputs whose induced gradients align with task vectors, capturing task-specific functional shifts relative to the pretrained model. This perspective bridges joint multi-task training and post-hoc merging, offering both robustness and flexibility. We further introduce a principled initialization scheme and show that FDAs are complementary to parameter-space model merging. Comprehensive experiments demonstrate the effectiveness of FDAs in model merging.
- Abstract(参考訳): モデルマージは、共有基盤モデルの複数の微調整されたチェックポイントから知識を統合するための効果的な後学習戦略である。
既存のメソッドはパラメータ空間で動作し、タスクベクトルを組み合わせて競合を緩和するが、パラメータの不整合によって制約される。
本稿では、入力表現空間をモデル化するフレームワークであるFunctional Dual Anchors(FDA)を提案する。
FDAは、誘導勾配がタスクベクトルと一致し、事前訓練されたモデルに対してタスク固有の機能シフトをキャプチャする合成入力である。
この観点は、マルチタスクトレーニングとポストホックマージの併用をブリッジし、堅牢性と柔軟性を提供する。
さらに, 基本初期化方式を導入し, FDAがパラメータ空間モデル統合に相補的であることを示す。
総合的な実験は、モデルマージにおけるFDAの有効性を示す。
関連論文リスト
- Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging [38.12136955174922]
個別タスクのための微調整された大規模言語モデル(LM)は、高いパフォーマンスをもたらすが、デプロイメントやストレージには高価である。
最近の研究は、複数のタスク固有のモデルを追加トレーニングなしで単一のマルチタスクモデルに結合するモデルマージについて検討している。
既存のマージ方式は、性能劣化のためにローランク適応(LoRA)を微調整したモデルでは失敗することが多い。
論文 参考訳(メタデータ) (2025-05-28T23:28:12Z) - RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness [28.437105789298244]
RobustMergeは、方向ロバスト性を維持するために相補的なパラメータ適応を備えたトレーニング不要なパラメータ効率のマージ手法である。
多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文 参考訳(メタデータ) (2025-02-24T13:52:05Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Merging by Matching Models in Task Parameter Subspaces [87.8712523378141]
モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。
我々は、モデルマージに対するこのアプローチが、方程式の線形系を解くとみなす方法を定式化する。
共役勾配法は閉形式解より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-07T14:59:15Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。