論文の概要: LARV: Data-Free Layer-wise Adaptive Rescaling Veneer for Model Merging
- arxiv url: http://arxiv.org/abs/2602.09413v1
- Date: Tue, 10 Feb 2026 05:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.381272
- Title: LARV: Data-Free Layer-wise Adaptive Rescaling Veneer for Model Merging
- Title(参考訳): LARV: モデルマージのためのデータフリーなレイヤワイド適応型再スケーリングベニア
- Authors: Xinyu Wang, Ke Deng, Fei Dou, Jinbo Bi, Jin Lu,
- Abstract要約: LARVは、トレーニングフリー、データフリー、マージ非依存、レイヤワイド・アダプティブ・リスケーリング・ベネアである。
LARVは浅層干渉を適応的に抑制し、単純な決定論的スケジュールを用いて深層アライメントを増幅する。
階層解析と汚職試験は、LARVが浅層干渉を抑制する一方で、より深くタスク安定な特徴を緩やかに増幅していることを示している。
- 参考スコア(独自算出の注目度): 11.135582038431368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging aims to combine multiple fine-tuned models into a single multi-task model without access to training data. Existing task-vector merging methods such as TIES, TSV-M, and Iso-C/CTS differ in their aggregation rules but treat all layers nearly uniformly. This assumption overlooks the strong layer-wise heterogeneity in large vision transformers, where shallow layers are sensitive to interference while deeper layers encode stable task-specific features. We introduce LARV, a training-free, data-free, merger-agnostic Layer-wise Adaptive Rescaling Veneer that plugs into any task-vector merger and assigns a per-layer scale to each task vector before aggregation, and show it consistently boosts diverse merging rules. LARV adaptively suppresses shallow-layer interference and amplifies deeper-layer alignment using a simple deterministic schedule, requiring no retraining or modification to existing mergers. To our knowledge, this is the first work to perform layer-aware scaling for task-vector merging. LARV computes simple data-free layer proxies and turns them into scales through a lightweight rule; we study several instantiations within one framework (e.g., tiered two/three-level scaling with fixed values, or continuous mappings) and show that tiered choices offer the best robustness, while continuous mappings remain an ablation. LARV is orthogonal to the base merger and adds negligible cost. On FusionBench with Vision Transformers, LARV consistently improves all task-vector baselines across 8/14/20-task settings; for example, Iso-C + LARV reaches 85.9% on ViT-B/32, 89.2% on ViT-B/16, and 92.6% on ViT-L/14. Layerwise analysis and corruption tests further indicate that LARV suppresses shallow-layer interference while modestly amplifying deeper, task-stable features, turning model merging into a robust, layer-aware procedure rather than a uniform one.
- Abstract(参考訳): モデルマージは、複数の微調整されたモデルを、トレーニングデータにアクセスせずに単一のマルチタスクモデルに結合することを目的としている。
TIES, TSV-M, Iso-C/CTSなどの既存のタスクベクトルマージ手法は, 集約ルールが異なるが, 全てのレイヤをほぼ均一に扱う。
この仮定は、浅い層が干渉に敏感であり、深い層が安定したタスク固有の特徴を符号化する、大きな視覚変換器の強い層ワイド不均一性を見落としている。
LARVは、トレーニングフリー、データフリー、マージ非依存のレイヤワイド・アダプティブ・リスケーリング・ベネアで、任意のタスク・ベクター・マージにプラグインし、アグリゲーションの前に各タスクベクトルにレイヤごとのスケールを割り当てる。
LARVは浅層干渉を適応的に抑制し、単純な決定論的スケジュールを用いて深層アライメントを増幅する。
私たちの知る限り、これはタスク・ベクター・マージのためのレイヤ・アウェア・スケーリングを実行する最初の作業です。
LARVは、単純なデータフリー層プロキシを計算し、それらを軽量なルールでスケールに変換する。我々は、1つのフレームワーク(例えば、固定値を持つ2/3レベルのスケーリングと連続マッピング)内でいくつかのインスタンス化を調査し、連結された選択が最良の堅牢性を提供する一方で、連続的なマッピングはアブレーションのままであることを示す。
LARVはベースマージに直交し、無視できるコストを増す。
FusionBench with Vision Transformersでは、LARVは8/14/20タスク設定のタスクベクトルベースラインを一貫して改善している。例えば、Iso-C + LARVはViT-B/32で85.9%、ViT-B/16で89.2%、ViT-L/14で92.6%である。
階層解析および汚損試験により、LARVは浅層干渉を抑制する一方で、より深いタスク安定な特徴を緩やかに増幅し、モデルが一様ではなく頑健な層対応の手順にマージすることを示す。
関連論文リスト
- Do All Individual Layers Help? An Empirical Study of Task-Interfering Layers in Vision-Language Models [51.754991950934375]
事前トレーニングされたVLMでは、すべてのレイヤがデフォルトで実行され、下流タスクで予測される。
パラメータをゼロにすることで、ひとつの層にインターベンションすることで、特定のタスクのパフォーマンスを向上させることができる。
与えられたタスクに対して最も干渉するレイヤを動的に識別し、バイパスする、トレーニング不要なテスト時間適応手法であるTaLoを提案する。
論文 参考訳(メタデータ) (2026-02-01T11:37:05Z) - Hierarchical Adaptive networks with Task vectors for Test-Time Adaptation [3.3834108313265916]
タスクベクトルを用いた階層型適応ネットワーク(Hi-Vec)を提案する。
Hi-Vecは、既存のメソッドが様々な複雑さのシフトに適応できるようにする。
挑戦的なシナリオや複数のターゲットデータセットにおいて、Hi-Vecの性能を厳格に評価する。
論文 参考訳(メタデータ) (2025-08-11T21:55:53Z) - MASS: MoErging through Adaptive Subspace Selection [55.03293736484465]
モデルマージの新しいアプローチであるMASS(MoErging through Adaptive Subspace Selection)を提案する。
MASSはタスクごとに最も健全な特異なコンポーネントのみを格納し、それらを共有モデルにマージする。
我々は,8,14,20タスクのベンチマークに対して,ViT-B-16,ViT-B-32,ViT-L-14を用いて,CLIPに基づく画像分類のMASSを評価する。
論文 参考訳(メタデータ) (2025-04-06T08:49:52Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [16.84400858871298]
本稿では、層固有のルータを用いて、各入力シーケンスに対して適応的に変換器層のサブセットを選択することでレイテンシを低減するアルゴリズムであるFiRSTを提案する。
FiRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を維持する。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。