論文の概要: Routing without Forgetting
- arxiv url: http://arxiv.org/abs/2603.09576v1
- Date: Tue, 10 Mar 2026 12:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.299101
- Title: Routing without Forgetting
- Title(参考訳): 忘れずにルーティングする
- Authors: Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato,
- Abstract要約: 変換器における連続学習をルーティング問題として再放送する。
タスク固有のプロンプトを格納またはマージする代わりに、RwFはシングルステップの連想検索を通じて動的プロンプトを生成する。
Split-ImageNet-R と Split-ImageNet-S では、RwF は数ショットの学習システムであっても、事前のプロンプトベースのアプローチよりも大きなマージンでパフォーマンスを向上している。
- 参考スコア(独自算出の注目度): 20.60324059904291
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Continual learning in transformers is commonly addressed through parameter-efficient adaptation: prompts, adapters, or LoRA modules are specialized per task while the backbone remains frozen. Although effective in controlled multi-epoch settings, these approaches rely on gradual gradient-based specialization and struggle in Online Continual Learning (OCL), where data arrive as a non-stationary stream and each sample may be observed only once. We recast continual learning in transformers as a routing problem: under strict online constraints, the model must dynamically select the appropriate representational subspace for each input without explicit task identifiers or repeated optimization. We thus introduce Routing without Forgetting (RwF), a transformer architecture augmented with energy-based associative retrieval layers inspired by Modern Hopfield Networks. Instead of storing or merging task-specific prompts, RwF generates dynamic prompts through single-step associative retrieval over the transformer token embeddings at each layer. Retrieval corresponds to the closed-form minimization of a strictly convex free-energy functional, enabling input-conditioned routing within each forward pass, independently of iterative gradient refinement. Across challenging class-incremental benchmarks, RwF improves over existing prompt-based methods. On Split-ImageNet-R and Split-ImageNet-S, RwF outperforms prior prompt-based approaches by a large margin, even in few-shot learning regimes. These results indicate that embedding energy-based associative routing directly within the transformer backbone provides a principled and effective foundation for OCL.
- Abstract(参考訳): トランスの継続的な学習は、パラメータ効率の適応によって一般的に対処される:プロンプト、アダプタ、あるいはLoRAモジュールはタスクごとに特殊化され、バックボーンは凍結されている。
制御されたマルチエポックな設定では有効であるが、これらの手法は段階的な勾配に基づく特殊化とオンライン連続学習(OCL)の苦労に依存しており、データは静止しないストリームとして到着し、各サンプルは一度だけ観察できる。
厳密なオンライン制約の下では、明示的なタスク識別子や繰り返し最適化なしに、各入力に対する適切な表現部分空間を動的に選択する必要がある。
そこで我々は,現代ホップフィールドネットワークにインスパイアされたエネルギーベースの連想検索層を付加したトランスフォーマーアーキテクチャであるRuting without Forgetting (RwF)を導入する。
タスク固有のプロンプトを格納またはマージする代わりに、RwFはトランスフォーマートークンを各レイヤに埋め込んだ単一ステップの連想検索を通じて動的プロンプトを生成する。
検索は厳密な凸自由エネルギー関数の閉形式最小化に対応し、反復的な勾配改善とは無関係に、各前方パス内の入力条件付きルーティングを可能にする。
挑戦的なクラスインクリメンタルベンチマークを通じて、RwFは既存のプロンプトベースのメソッドを改善している。
Split-ImageNet-R と Split-ImageNet-S では、RwF は数ショットの学習システムであっても、事前のプロンプトベースのアプローチよりも大きなマージンでパフォーマンスを向上している。
これらの結果は、トランスバックボーンに直接エネルギーベースの連想ルーティングを埋め込むことが、OCLの原則的かつ効果的な基礎となることを示唆している。
関連論文リスト
- Improving Recursive Transformers with Mixture of LoRAs [2.672804414228544]
共有フィードフォワードネットワーク(FFN)内にLoRA(Lo-Rank Adaptation)の専門家を挿入するLoRA(MoL)の混合
MoLは、バックボーンパラメータをアンタイズすることなく共有FFNのトークン条件の重み空間変調を可能にする。
ModernALBERTは、コンパクトモデル間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-14T23:39:30Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging [45.39911367007956]
ディープ・アンロールとプラグ・アンド・プレイのアプローチは、単画素イメージング(SPI)逆問題におけるデファクトとなっている。
本稿では,両クラスの解き手の強みを統合するという課題に対処する。
論文 参考訳(メタデータ) (2025-05-29T07:16:57Z) - Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。
既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。
本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-22T07:03:57Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。