論文の概要: Continual Learning with Query-Only Attention
- arxiv url: http://arxiv.org/abs/2510.00365v1
- Date: Wed, 01 Oct 2025 00:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.297833
- Title: Continual Learning with Query-Only Attention
- Title(参考訳): クエリのみを意識した継続的学習
- Authors: Gautham Bekal, Ashish Pujari, Scott David Kelly,
- Abstract要約: 継続的な学習には、データポイントを繰り返すことなく、データのストリームから学ぶことが含まれる。
本稿では,キーと値を捨てるクエリのみのアテンション機構を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning involves learning from a stream of data without repetition of data points, a scenario that is inherently complex due to distributional shift across tasks. We propose a query-only attention mechanism that discards keys and values, yet preserves the core inductive bias of transformer architectures. In continual learning scenarios, this simplified mechanism significantly mitigates both loss of plasticity and catastrophic forgetting, outperforming baselines such as selective re-initialization. We establish a conceptual link between query-only attention, full transformer attention, and model agnostic meta-learning, framing them as instances of meta-learning. We further provide intuition for why query-based models and attention networks help preserve plasticity in continual settings. Finally, through preliminary Hessian spectrum analysis, we observe that models maintaining higher curvature rank across tasks tend to retain plasticity. Our findings suggest that full attention may not be essential for capturing the benefits of meta-learning in continual learning.
- Abstract(参考訳): 継続的な学習には、複数のデータポイントを繰り返すことなく、データストリームから学ぶことが含まれる。
本稿では,キーと値を捨てるクエリのみのアテンション機構を提案する。
連続的な学習シナリオでは、この単純化されたメカニズムは、可塑性の喪失と破滅的な忘れ込みの両方を著しく軽減し、選択的な再初期化のようなベースラインよりも優れている。
我々は,クエリのみの注意,フルトランスフォーマーの注意,メタラーニングをメタラーニングの例とみなすモデル非依存メタラーニングの概念的リンクを確立する。
さらに、クエリベースのモデルとアテンションネットワークが、連続的な設定で可塑性を維持するのに役立つ理由を直感的に説明します。
最後に、予備的なヘッセンスペクトル分析により、タスク間の高い曲率を維持するモデルが可塑性を維持する傾向があることを観察する。
本研究から,メタラーニングのメリットを把握するためには,注意が不可欠でない可能性が示唆された。
関連論文リスト
- Advancing Analytic Class-Incremental Learning through Vision-Language Calibration [6.871141687303144]
事前学習モデル(PTM)を用いたクラスインクリメンタルラーニング(CIL)は、効率的な適応と長期的安定性の間に重要なトレードオフに直面している。
我々は,2段階の視覚言語キャリブレーション戦略によって解析的CILを向上する新しいデュアルブランチフレームワークである textbfVILA を提案する。
我々のフレームワークは解析学習の単純さと高忠実度予測を調和させる。
論文 参考訳(メタデータ) (2026-02-14T08:32:51Z) - Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning [51.07663354001582]
ディープニューラルネットワークは破滅的な忘れ込みに悩まされ、新しいタスクのトレーニング後に以前のタスクのパフォーマンスが低下する。
本稿では,メモリベースの手法と正規化手法の交わりに着目し,この問題に対処する新しいアプローチを提案する。
我々は、メモリベース連続学習法において、情報最大化(IM)正則化と呼ばれる正規化戦略を定式化する。
論文 参考訳(メタデータ) (2025-12-01T15:56:00Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Shortcut Learning Susceptibility in Vision Classifiers [11.599035626374409]
ショートカット学習は、機械学習モデルが意味のある特徴をキャプチャする代わりに、データの急激な相関を利用する場所である。
本研究では,クラスラベルと位置と強度の相関関係にあるデータセットに意図的にショートカットを導入する。
異なる学習率で学習をショートカットする可能性を評価する。
論文 参考訳(メタデータ) (2025-02-13T10:25:52Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - Using Early Readouts to Mediate Featural Bias in Distillation [30.5299408494168]
ディープネットワークは、現実世界の教師付き学習タスクにおいて、突発的な特徴ラベル相関を学習する傾向がある。
本稿では,従来のネットワーク層からの表現を用いてラベルを予測しようとする新しい早期読み出し機構を提案する。
論文 参考訳(メタデータ) (2023-10-28T04:58:15Z) - On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。
単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文 参考訳(メタデータ) (2023-10-19T12:18:24Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Meta-learning framework with applications to zero-shot time-series
forecasting [82.61728230984099]
この研究は幅広いメタラーニングフレームワークを使って肯定的な証拠を提供する。
残余接続はメタラーニング適応機構として機能する。
我々は、ソースTSデータセット上でニューラルネットワークをトレーニングし、異なるターゲットTSデータセット上で再トレーニングすることなくデプロイできることを示します。
論文 参考訳(メタデータ) (2020-02-07T16:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。