論文の概要: Attractor Patch Networks: Reducing Catastrophic Forgetting with Routed Low-Rank Patch Experts
- arxiv url: http://arxiv.org/abs/2602.06993v1
- Date: Wed, 28 Jan 2026 06:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.686738
- Title: Attractor Patch Networks: Reducing Catastrophic Forgetting with Routed Low-Rank Patch Experts
- Title(参考訳): トラクタパッチネットワーク:トラクタローランドパッチエキスパートによる破滅的フォーミングの削減
- Authors: Shashank,
- Abstract要約: トランスフォーマーは強力な言語モデリング精度を実現するが、その位置対応フィードフォワードネットワーク(FFN)は密度が高く、グローバルに共有され、通常はエンドツーエンドに更新される。
本稿では,Transformer FFN のプラグイン互換の代替品である Attractor Patch Networks (APN) を提案する。
- 参考スコア(独自算出の注目度): 0.3882135185458233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers achieve strong language modeling accuracy, yet their position-wise feed-forward networks (FFNs) are dense, globally shared, and typically updated end to end. These properties create two practical tensions. First, dense FFNs spend the same compute on every token regardless of context, and they allocate capacity uniformly even when language exhibits highly clustered context structure. Second, continual learning, in the sense of updating the model while serving a data stream, often produces interference because a small update touches broadly shared weights. We propose Attractor Patch Networks (APN), a plug-compatible replacement for the Transformer FFN. APN is a bank of patch experts. A similarity router selects a small top-k set of patches for each token by matching the token representation to learned prototypes. Each selected patch emits a low-rank residual update conditioned on a compact code. The architecture yields conditional, context-specialized nonlinear transformations while preserving the standard Transformer interface. This paper focuses on APN as an architectural primitive. We formalize APN, analyze its expressivity as a piecewise low-rank residual function class, and derive simple interference and stability arguments that make APN naturally compatible with continual learning. In experiments on character-level language modeling, APN achieves competitive perplexity (4.57 vs 4.32 PPL) while enabling dramatically better continual adaptation: when adapting to a shifted domain, APN achieves 2.6 times better retention (11.1 vs 29.4 PPL on the original domain) and 2.8 times better adaptation (6.4 vs 17.8 PPL on the new domain) compared to global fine-tuning of a dense FFN baseline.
- Abstract(参考訳): トランスフォーマーは強力な言語モデリング精度を実現するが、その位置対応フィードフォワードネットワーク(FFN)は密度が高く、グローバルに共有され、通常はエンドツーエンドに更新される。
これらの性質は2つの現実的な緊張を生み出します。
第一に、高密度FFNはコンテキストに関わらず、すべてのトークンに同じ計算を使い、言語が高度にクラスタ化されたコンテキスト構造を示す場合でも、一様にキャパシティを割り当てる。
第二に、継続的学習は、データストリームを提供しながらモデルを更新するという意味で、小さな更新が広く共有される重みに触れるため、しばしば干渉を引き起こす。
本稿では,Transformer FFN のプラグイン互換の代替品である Attractor Patch Networks (APN) を提案する。
APNはパッチの専門家の銀行です。
類似性ルータは、トークン表現を学習したプロトタイプにマッチングすることにより、トークン毎に小さなトップkのパッチセットを選択する。
選択された各パッチは、コンパクトコードに条件付き低ランク残差更新を出力する。
このアーキテクチャは、標準的なTransformerインタフェースを保ちながら、条件付き、文脈特化非線形変換をもたらす。
本稿では,アーキテクチャプリミティブとしてのAPNに焦点を当てる。
我々はAPNを定式化し、その表現性を一括的に低ランク残関数クラスとして分析し、APNが連続学習と自然に互換性を持つような単純な干渉と安定性の議論を導出する。
文字レベルの言語モデリングの実験では、APNは競争上の難易度(4.57対4.32 PPL)を達成しつつ、連続的な適応を劇的に改善し、シフトしたドメインに適応する場合、APNは2.6倍の保持性(元のドメインでは11.1対29.4 PPL)と2.8倍の適応性(新しいドメインでは6.4対17.8 PPL)を達成する。
関連論文リスト
- GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting [50.794700596484894]
IntroPE(Entropy-Guided Dynamic Patch)は,条件付きエントロピーによる遷移点を動的に検出する新しい時間情報フレームワークである。
これは、パッチの計算上の利点を維持しながら、時間構造を保存する。
長期予測ベンチマークによる実験では、EntroPEは精度と効率の両方を改善している。
論文 参考訳(メタデータ) (2025-09-30T12:09:56Z) - FedBiF: Communication-Efficient Federated Learning via Bits Freezing [30.27100790578667]
Federated Bit Freezing (FedBiF)は、ローカルトレーニング中に量子化されたモデルパラメータを直接学習する新しいFLフレームワークである。
FedBiFは優れた通信圧縮を実現し、結果のモデルの疎性も促進する。
論文 参考訳(メタデータ) (2025-09-12T11:41:06Z) - Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding [89.52931576290976]
本研究では,コンテキストbfTextualized equivaritextbfAnt textbfPosition textbfEncoding(textbfTAPE)を提案する。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-01-01T03:23:00Z) - LGFCTR: Local and Global Feature Convolutional Transformer for Image
Matching [8.503217766507584]
局所的文脈とグローバル構造の両方を捉えるために,新しい畳み込み変換器を提案する。
普遍的なFPNライクなフレームワークは、トランスフォーマーによるクロスデコーダと同様に、自己エンコーダ内のグローバル構造をキャプチャする。
新たなレグレッションベースのサブピクセルリファインメントモジュールは、微粒なウィンドウ特徴を微粒な位置ずれレグレッションに活用する。
論文 参考訳(メタデータ) (2023-11-29T12:06:19Z) - A Closer Look at In-Context Learning under Distribution Shifts [24.59271215602147]
線形回帰の単純かつ基本的なタスクのレンズから、文脈内学習の一般性と限界をよりよく理解することを目的としている。
変圧器とセットベース分布の両方が, 正規最小二乗(OLS)の性能をより密にエミュレートし, 文脈内学習による分布評価を行うことがわかった。
トランスフォーマーはまた、セットベースの分散がフェーターとなる、軽微な分散シフトに対するレジリエンスも向上している。
論文 参考訳(メタデータ) (2023-05-26T07:47:21Z) - FaPN: Feature-aligned Pyramid Network for Dense Image Prediction [6.613724825924151]
本稿では,画素の変換オフセットから,アップサンプリング機能への変換を学習する機能アライメントモジュールを提案する。
次に、これらの2つのモジュールをトップダウンピラミッドアーキテクチャに統合し、Feature-aligned Pyramid Network (FaPN)を提示します。
特に、私たちのFaPNは Mask-Former に統合された ADE20K 上で56.7% mIoU の最先端を実現している。
論文 参考訳(メタデータ) (2021-08-16T12:52:42Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。
クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文 参考訳(メタデータ) (2020-12-07T21:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。