論文の概要: Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations
- arxiv url: http://arxiv.org/abs/2602.03237v1
- Date: Tue, 03 Feb 2026 08:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.325654
- Title: Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations
- Title(参考訳): Merging Beyond: Activation-Guided RotationsによるLLMアップデートのストリーミング
- Authors: Yuxuan Yao, Haonan Sheng, Qingsong Lv, Han Wu, Shuqi Liu, Zehua Liu, Zengyan Liu, Jiahui Gao, Haochen Tan, Xiaojin Fu, Haoli Bai, Hing Cheung So, Zhijiang Guo, Linqi Song,
- Abstract要約: Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。
ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。
ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
- 参考スコア(独自算出の注目度): 55.047454145941366
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The escalating scale of Large Language Models (LLMs) necessitates efficient adaptation techniques. Model merging has gained prominence for its efficiency and controllability. However, existing merging techniques typically serve as post-hoc refinements or focus on mitigating task interference, often failing to capture the dynamic optimization benefits of supervised fine-tuning (SFT). In this work, we propose Streaming Merging, an innovative model updating paradigm that conceptualizes merging as an iterative optimization process. Central to this paradigm is \textbf{ARM} (\textbf{A}ctivation-guided \textbf{R}otation-aware \textbf{M}erging), a strategy designed to approximate gradient descent dynamics. By treating merging coefficients as learning rates and deriving rotation vectors from activation subspaces, ARM effectively steers parameter updates along data-driven trajectories. Unlike conventional linear interpolation, ARM aligns semantic subspaces to preserve the geometric structure of high-dimensional parameter evolution. Remarkably, ARM requires only early SFT checkpoints and, through iterative merging, surpasses the fully converged SFT model. Experimental results across model scales (1.7B to 14B) and diverse domains (e.g., math, code) demonstrate that ARM can transcend converged checkpoints. Extensive experiments show that ARM provides a scalable and lightweight framework for efficient model adaptation.
- Abstract(参考訳): LLM(Large Language Models)のエスカレートスケールは、効率的な適応技術を必要とする。
モデルマージは、その効率性と制御性で有名になった。
しかし、既存のマージ技術は一般的に、ポストホック後の改善やタスク干渉の緩和に重点を置いており、しばしば教師付き微調整(SFT)の動的な最適化の利点を捉えていない。
本稿では,反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムであるStreaming Mergingを提案する。
このパラダイムの中心は、勾配降下ダイナミクスを近似する戦略である \textbf{ARM} (\textbf{A}ctivation-guided \textbf{R}otation-aware \textbf{M}erging) である。
マージ係数を学習率として扱い、アクティベーション部分空間から回転ベクトルを導出することにより、ARMはデータ駆動軌道に沿ってパラメータの更新を効果的に行う。
従来の線形補間とは異なり、ARMは高次元パラメータ進化の幾何学的構造を保存するために意味的部分空間を整列する。
ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
モデルスケール(1.7Bから14B)と様々な領域(例えば、数学、コード)にわたる実験結果は、ARMが収束したチェックポイントを超越できることを示している。
大規模な実験によると、ARMは効率的なモデル適応のためのスケーラブルで軽量なフレームワークを提供する。
関連論文リスト
- ARM: Role-Conditioned Neuron Transplantation for Training-Free Generalist LLM Agent Merging [51.409102048965394]
エージェント・ロール・マージング(ARM)は、LLMエージェントのモデルマージングのための活性化誘導されたロール条件のニューロン移植法である。
ARMは、静的自然言語タスクからマルチターンエージェントシナリオまで、既存のマージメソッドを改善している。
論文 参考訳(メタデータ) (2026-01-12T08:31:53Z) - Activation Manifold Projection: Liberating Task-Specific Behaviors from LLM Architectures [0.0]
本稿では,LoRA符号化された動作を解放する新しいフレームワークであるCartridge Activation Space Transfer (CAST)を紹介する。
CASTは、ターゲットモデルのアクティベーションストリームをソースモデルの潜在空間に変換する、軽量で双方向のプロジェクションヘッドのセットを学習する。
実験により、CAST変換アダプタは、ターゲットモデル上で完全に再訓練されたLoRAの性能の85-95%を達成することが示された。
論文 参考訳(メタデータ) (2025-10-19T10:55:05Z) - Harnessing Optimization Dynamics for Curvature-Informed Model Merging [17.42364575754576]
教師付き微調整では、複数の機能ベースのSFTチェックポイントを1つのモデルに統合する必要がある。
我々は、最適化トラジェクトリ・アウェア(OTA)マージと高速フィッシャーグラフティング(FFG)を導入する。
OTA+FFGは、強力な重量空間ベースラインよりもマージモデルの品質を改善し、負の転送を低減し、スパーシティレベルにわたって堅牢である。
論文 参考訳(メタデータ) (2025-09-14T08:59:53Z) - Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。
本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T06:15:38Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。