論文の概要: SALAAD: Sparse And Low-Rank Adaptation via ADMM
- arxiv url: http://arxiv.org/abs/2602.00942v1
- Date: Sun, 01 Feb 2026 00:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.476106
- Title: SALAAD: Sparse And Low-Rank Adaptation via ADMM
- Title(参考訳): SALAAD:ADMMによるスパースとローランク適応
- Authors: Hao Ma, Melis Ilayda Bal, Liang Zhang, Bingcong Li, Niao He, Melanie Zeilinger, Michael Muehlebach,
- Abstract要約: トレーニング中にスパース構造と低ランク構造を誘導するプラグイン・アンド・プレイ・フレームワークであるSALAADを提案する。
モデルスケールでの実験では、SALAADはデプロイメント中のメモリ消費を大幅に削減する。
単一のトレーニングを実行すると、モデル能力の連続的なスペクトルが得られ、多様なメモリ予算をまたいだスムーズで弾力的なデプロイメントが可能になる。
- 参考スコア(独自算出の注目度): 38.037874715181964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models are increasingly deployed under compute and memory constraints, making flexible control of model capacity a central challenge. While sparse and low-rank structures naturally trade off capacity and performance, existing approaches often rely on heuristic designs that ignore layer and matrix heterogeneity or require model-specific architectural modifications. We propose SALAAD, a plug-and-play framework applicable to different model architectures that induces sparse and low-rank structures during training. By formulating structured weight learning under an augmented Lagrangian framework and introducing an adaptive controller that dynamically balances the training loss and structural constraints, SALAAD preserves the stability of standard training dynamics while enabling explicit control over the evolution of effective model capacity during training. Experiments across model scales show that SALAAD substantially reduces memory consumption during deployment while achieving performance comparable to ad-hoc methods. Moreover, a single training run yields a continuous spectrum of model capacities, enabling smooth and elastic deployment across diverse memory budgets without the need for retraining.
- Abstract(参考訳): 現代の大規模言語モデルは、計算とメモリの制約の下でますます展開され、モデルのキャパシティの柔軟な制御が中心的な課題となっている。
スパース構造と低ランク構造が自然に容量と性能を交換する一方で、既存のアプローチは層や行列の不均一性を無視したり、モデル固有のアーキテクチャ修正を必要とするヒューリスティックな設計に依存していることが多い。
トレーニング中にスパース構造と低ランク構造を誘導する様々なモデルアーキテクチャに適用可能な,プラグアンドプレイフレームワークSALAADを提案する。
強化されたラグランジアンフレームワークの下で構造化ウェイトラーニングを定式化し、トレーニング損失と構造的制約を動的にバランスさせる適応型コントローラを導入することで、SALAADはトレーニング中に有効なモデルキャパシティの進化を明示的に制御しつつ、標準トレーニングダイナミクスの安定性を保ちます。
モデルスケールでの実験では、SALAADはアドホックなメソッドに匹敵するパフォーマンスを実現しながら、デプロイメント中のメモリ消費を大幅に削減している。
さらに、単一のトレーニング実行では、モデル能力の連続的なスペクトルが得られ、再トレーニングを必要とせずに、さまざまなメモリ予算をまたいだスムーズで弾力的なデプロイメントが可能になる。
関連論文リスト
- An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Modular Delta Merging with Orthogonal Constraints: A Scalable Framework for Continual and Reversible Model Composition [0.0]
既存のモデルマージと継続的学習へのアプローチは、しばしばタスクの干渉、破滅的な忘れ込み、あるいは可逆性の欠如に悩まされる。
本稿では, 拡張性, 干渉フリー, 微調整モデルの構成が可能な新しいフレームワークである Orthogonal Constraints (MDM-OC) を用いた Modular Delta Merging を提案する。
論文 参考訳(メタデータ) (2025-07-28T17:08:49Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。
当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。
この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文 参考訳(メタデータ) (2025-03-28T16:42:21Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - State-driven Implicit Modeling for Sparsity and Robustness in Neural
Networks [3.604879434384177]
SIM(State-driven Implicit Modeling)と呼ばれる暗黙的モデルをトレーニングするための新しいアプローチを提案する。
SIMは内部の状態と出力をベースラインモデルと一致させ、コストのかかる後方計算を回避する。
本稿では,データセット上でトレーニングされたベースラインモデルの空間性とロバスト性を大幅に向上するためにSIMアプローチを適用する方法を示す。
論文 参考訳(メタデータ) (2022-09-19T23:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。