論文の概要: Non-Interfering Weight Fields: Treating Model Parameters as a Continuously Extensible Function
- arxiv url: http://arxiv.org/abs/2602.18628v1
- Date: Fri, 20 Feb 2026 21:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.203074
- Title: Non-Interfering Weight Fields: Treating Model Parameters as a Continuously Extensible Function
- Title(参考訳): 非干渉重み場:連続的に拡張可能な関数としてモデルパラメータを扱う
- Authors: Sarim Chaudhry,
- Abstract要約: 大規模言語モデルは、すべての学習した知識を1つの固定重みベクトルに格納する。
破滅的な忘れ物として知られるこの制限は、何十年にもわたって原則化された解決策に抵抗してきた。
本稿では,不干渉重みフィールド(Non-Interfering Weight Fields)を提案する。これは固定重みパラダイムを,需要に応じて重み設定を生成する学習関数に置き換えるフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models store all learned knowledge in a single, fixed weight vector. Teaching a model new capabilities requires modifying those same weights, inevitably degrading previously acquired knowledge. This fundamental limitation, known as catastrophic forgetting, has resisted principled solutions for decades. Existing approaches treat weights as immutable artifacts that must be protected through techniques like regularization heuristics, replay buffers, or isolated adapter modules. The problem is none of these provide a structural guarantee against forgetting. In this work, we propose Non-Interfering Weight Fields (NIWF), a framework that replaces the fixed weight paradigm with a learned function that generates weight configurations on demand from a continuous capability coordinate space. After training on a task, we commit the occupied coordinate region by snapshotting the fields outputs on anchor points to enforce a functional lock during all future training. We validate NIWF on sequential instructionfollowing and code generation tasks using Mistral-7B, demonstrating zero forgetting on committed tasks with competitive perplexity on new tasks. The framework introduces the notion of software-like versioning for neural network intelligence, where capabilities can be committed, extended, composed, and rolled back without retraining.
- Abstract(参考訳): 大規模言語モデルは、すべての学習した知識を1つの固定重みベクトルに格納する。
モデルに新しい能力を教えるには、それらの重みを変更する必要がある。
この基本的な制限は破滅的な忘れ方として知られているが、何十年にもわたって原理的な解決策に抵抗してきた。
既存のアプローチでは、重み付けを不変アーティファクトとして扱い、正規化ヒューリスティックやリプレイバッファ、独立したアダプタモジュールといったテクニックによって保護されなければならない。
問題は、これらのいずれかが、忘れることに対する構造的な保証を提供していないことだ。
本研究では,不干渉重み場(NIWF)を提案する。これは固定重みパラダイムを,連続的な機能座標空間から要求に応じて重み設定を生成する学習関数に置き換えるフレームワークである。
タスクをトレーニングした後、アンカーポイントに出力されたフィールドをスナップショット化して、将来のすべてのトレーニング中に関数ロックを強制することで、占有された座標領域をコミットする。
NIWFをMistral-7Bを用いて逐次命令フォローとコード生成タスクで検証し、新しいタスクに競合するパープレキシティを持つコミットタスクをゼロにすることを実証した。
このフレームワークは、ニューラルネットワークインテリジェンスのためのソフトウェアライクなバージョニングの概念を導入している。
関連論文リスト
- Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Analytic Subspace Routing: How Recursive Least Squares Works in Continual Learning of Large Language Model [6.42114585934114]
大規模言語モデル(LLM)には、多様な言語関連タスクを処理できる機能がある。
大規模言語モデル(LLM)における継続的な学習は、LLMを新しいタスクに継続的に適応させることを目的としている。
本稿では,これらの課題に対処するため,ASR(Analytic Subspace Routing)を提案する。
論文 参考訳(メタデータ) (2025-03-17T13:40:46Z) - Beyond Prompt Learning: Continual Adapter for Efficient Rehearsal-Free Continual Learning [22.13331870720021]
C-ADA (Continuous Adapter) という,RFCL タスクに対する超高速学習手法を提案する。
C-ADAは、CALの特定の重みを柔軟に拡張し、各タスクの新たな知識を学び、古い重みを凍結して以前の知識を保存する。
提案手法は,現状のSOTA(State-of-the-art)法よりも優れ,性能とトレーニング速度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-14T17:40:40Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Fine-Grained Knowledge Selection and Restoration for Non-Exemplar Class
Incremental Learning [64.14254712331116]
非典型的なクラスインクリメンタル学習は、過去のトレーニングデータにアクセスすることなく、新しいタスクと古いタスクの両方を学ぶことを目的としている。
本稿では, きめ細かい知識選択と復元のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-20T02:34:11Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。