論文の概要: From Parameter to Representation: A Closed-Form Approach for Controllable Model Merging
- arxiv url: http://arxiv.org/abs/2511.10943v1
- Date: Fri, 14 Nov 2025 04:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.427641
- Title: From Parameter to Representation: A Closed-Form Approach for Controllable Model Merging
- Title(参考訳): パラメータから表現へ:制御可能なモデルマージのためのクローズドフォームアプローチ
- Authors: Jialin Wu, Jian Yang, Handing Wang, Jiajun Wen, Zhiyong Yu,
- Abstract要約: モデルマージは、マルチタスクのパフォーマンスのエキスパートモデルを組み合わせるが、パラメータ干渉による課題に直面している。
既存のアプローチではコンパイル型クエリーのパラダイムを採用しており、高速で好み対応のモデル生成を可能にするために、コストのかかるオフラインの多目的最適化を実行する。
我々は、この補正を最適線形変換としてモデル化し、オフライン最適化プロセス全体を単一ステップでアーキテクチャに依存しない計算で置き換える閉形式解を得る。
- 参考スコア(独自算出の注目度): 22.794831741556468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging combines expert models for multitask performance but faces challenges from parameter interference. This has sparked recent interest in controllable model merging, giving users the ability to explicitly balance performance trade-offs. Existing approaches employ a compile-then-query paradigm, performing a costly offline multi-objective optimization to enable fast, preference-aware model generation. This offline stage typically involves iterative search or dedicated training, with complexity that grows exponentially with the number of tasks. To overcome these limitations, we shift the perspective from parameter-space optimization to a direct correction of the model's final representation. Our approach models this correction as an optimal linear transformation, yielding a closed-form solution that replaces the entire offline optimization process with a single-step, architecture-agnostic computation. This solution directly incorporates user preferences, allowing a Pareto-optimal model to be generated on-the-fly with complexity that scales linearly with the number of tasks. Experimental results show our method generates a superior Pareto front with more precise preference alignment and drastically reduced computational cost.
- Abstract(参考訳): モデルマージは、マルチタスクのパフォーマンスのエキスパートモデルを組み合わせるが、パラメータ干渉による課題に直面している。
これにより、コントロール可能なモデルマージに対する最近の関心が高まり、パフォーマンスのトレードオフを明示的にバランスできるようになりました。
既存のアプローチではコンパイル型クエリーのパラダイムを採用しており、高速で好み対応のモデル生成を可能にするために、コストのかかるオフラインの多目的最適化を実行する。
このオフラインステージは、通常、反復的な検索または専用トレーニングを伴い、タスクの数とともに指数関数的に増加する複雑さを伴う。
これらの制限を克服するため、パラメータ空間最適化からモデルの最終表現の直接補正へ視点をシフトする。
我々の手法は、この補正を最適線形変換としてモデル化し、オフライン最適化プロセス全体を単一ステップでアーキテクチャに依存しない計算に置き換える閉形式解を得る。
このソリューションでは、ユーザの好みを直接組み込んで、タスク数に応じて線形にスケールする複雑性を持つPareto-Optimalモデルをオンザフライで生成することができる。
実験により,提案手法はより高精度な選好アライメントと計算コストを大幅に削減した,優れたパレートフロントを生成することを示す。
関連論文リスト
- Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization [13.271737599933147]
本稿では,エントロピー強化フレームワークであるEntroPOを紹介し,既存の優先最適化アルゴリズムをマルチターンツール支援設定に適用する。
EntroPOは、さまざまな家族やサイズのモデル群を微調整することで検証する。
swebenchのリーダーボードでは、オープンウェイトモデルの間で、新しい最先端の結果が確立される。
論文 参考訳(メタデータ) (2025-09-15T20:36:19Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Model Fusion through Bayesian Optimization in Language Model Fine-Tuning [16.86812534268461]
下流タスクのための微調整された事前学習モデルは、様々な領域にまたがる適応性と信頼性で広く採用されているテクニックである。
本稿では,多目的ベイズ最適化により,所望の計量と損失の両方を最適化する新しいモデル融合手法を提案する。
各種下流タスクを対象とした実験では,ベイズ最適化誘導方式による大幅な性能向上が見られた。
論文 参考訳(メタデータ) (2024-11-11T04:36:58Z) - Outer Approximation and Super-modular Cuts for Constrained Assortment Optimization under Mixed-Logit Model [6.123324869194196]
混合ロジット顧客選択モデルに基づくアソシエーション最適化問題について検討する。
既存の正確な手法は、主にMILP (mixed-integer linear programming) やCONIC (Second-order cone) の修正に依存している。
我々の研究は、単調に超モジュラーかつ凸であることを示す客観的関数の成分に焦点をあてることによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-07-26T06:27:11Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。