論文の概要: Access Sets Matter: Budgeting Expert Reads for Scalable Weight-Space Model Merging
- arxiv url: http://arxiv.org/abs/2605.29489v1
- Date: Thu, 28 May 2026 07:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.88769
- Title: Access Sets Matter: Budgeting Expert Reads for Scalable Weight-Space Model Merging
- Title(参考訳): アクセスセットが重要: スケーラブルな軽量スペースモデルマージのための予算策定専門家
- Authors: Yuanyi Wang, Yanggan Gu, Su Lu, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang,
- Abstract要約: MergePipeは、重量空間モデルマージのための予算対応実行層である。
エキスパート読み取りのI/Oを桁違いに減らし、最大で11倍のスピードアップを達成できる。
- 参考スコア(独自算出の注目度): 29.33065526693412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight-space model merging is usually formulated as an algebraic operation on checkpoints, yet at LLM scale the limiting resource is often the set of expert weights that must be read. We introduce MergePipe, a budget-aware execution layer that casts LLM merging as an \emph{expert access-set} problem: given a merge operator and a checkpoint family in a shared weight coordinate system, choose which expert delta blocks to access under an explicit I/O budget. MergePipe indexes parameter blocks, builds deterministic access plans, and executes the induced budgeted merge with replayable manifests. The plan is budget-sound by construction and recovers the full-read merge at full budget; for fixed-coefficient additive operators, the omitted-update error is bounded by the norm of omitted deltas. Across Qwen and Llama merging workloads, MergePipe reduces expert-read I/O by up to an order of magnitude and achieves up to $11\times$ speedups. Representative budget sweeps show $O(10^{-3})$ parameter deviation from full-read merges and no monotonic degradation on downstream benchmarks.
- Abstract(参考訳): 重み空間モデルのマージは通常、チェックポイント上の代数的操作として定式化されるが、LLMスケールでは、制限リソースはしばしば読み込まなければならない専門家の重みの集合である。
共有重み座標系においてマージ演算子とチェックポイントファミリが与えられた場合、明示的なI/O予算の下でアクセスするための専門家デルタブロックを選択する。
MergePipeはパラメータブロックをインデックスし、決定論的アクセス計画を構築し、再生可能なマニフェストで誘導された予算のマージを実行する。
この計画は、建設によって予算通りに作られ、フルリードマージをフル予算で回収する。固定係数の加算演算子の場合、省略された更新エラーは、省略されたデルタのノルムによって境界づけられる。
QwenとLlamaがマージするワークロードの中で、MergePipeはエキスパート読み取りI/Oを桁違いに削減し、最大11\times$ Speedupsを実現している。
O(10^{-3})$パラメータをフルリードマージから逸脱し、下流ベンチマークではモノトニックな劣化がない。
関連論文リスト
- ZEBRA: Zero-shot Budgeted Resource Allocation for LLM Orchestration [8.226365534099399]
連続非線形クナップサック問題に対する多相予算割当を低減するフレームワークであるZEBRAを提案する。
150ドルのAPPS符号化ベンチマークでは、ZEBRAの2つの変種は全ての集計基準においてLLM-directよりも優れていた。
我々は,自律型マルチエージェントシステムの経済行動を改善するために,推論時の軽量なアルゴリズムガイダンスを提案する。
論文 参考訳(メタデータ) (2026-05-19T20:50:05Z) - Evolutionary Negative Module Pruning for Better LoRA Merging [46.397675691417675]
複数のLow-Rank Adaptation専門家を単一のバックボーンにマージすることは、効率的なマルチタスクデプロイメントのための有望なアプローチである。
既存の手法は、ウェイトやサブスペースアライメントによる干渉を緩和しようとする。
そこで本研究では,これらのモジュールをマージ前に検出・排除する,プラグアンドプレイのLoRAプルーニング手法を提案する。
論文 参考訳(メタデータ) (2026-04-20T03:13:18Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - MergePipe: A Budget-Aware Parameter Management System for Scalable LLM Merging [37.422249601576965]
MergePipeはスケーラブルなLLMマージのためのパラメータ管理システムである。
エキスパートパラメータI/Oを明示的にモデル化し、ユーザが指定したI/O予算を強制するコスト対応プランナーを採用している。
実験によると、MergePipeは総I/O量を桁違いに減らし、エンドツーエンドのスピードアップで最大11ドルまで提供する。
論文 参考訳(メタデータ) (2026-02-05T05:06:11Z) - Multiple-play Stochastic Bandits with Prioritized Arm Capacity Sharing [52.124267908936396]
このモデルは、$M$armと$K$playで構成されている。
各アームには複数の能力があり、各ユニットの能力は報酬関数に関連付けられている。
複数のプレーがアームキャパシティを競う場合、アームキャパシティは第1の優先重みで割り当てられる。
論文 参考訳(メタデータ) (2025-12-25T11:19:09Z) - Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs [26.212332132619736]
マルチタスクファインタニングにおいて,複数の$A$行列と1つの共有$B$を持つ非対称なマルチローラ設計を提案する。
提案手法は,既存のマルチLoRA手法と比較して,同等あるいは優れた平均精度でタスク間のバランスの取れた性能を実現する。
論文 参考訳(メタデータ) (2025-09-29T19:16:14Z) - The Alignment Bottleneck [0.0]
ループを2段階のカスケード$U to H to Y$ given$S$、認知能力$C_textcog|S$、平均総容量$barC_texttot|S$としてモデル化する。
これは、分離可能なコードブックと、KL項が$m, barC_texttot|S$で同じチャネルで制御されるPAC-Bayes上界とで証明されたデータサイズ非依存のファノ下界をペアする。
論文 参考訳(メタデータ) (2025-09-19T12:38:30Z) - Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。
ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文 参考訳(メタデータ) (2025-06-19T15:38:21Z) - Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。