Fugu-MT 論文翻訳(概要): Continual Learning with Query-Only Attention

論文の概要: Continual Learning with Query-Only Attention

arxiv url: http://arxiv.org/abs/2510.00365v1
Date: Wed, 01 Oct 2025 00:14:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-03 16:59:20.297833
Title: Continual Learning with Query-Only Attention
Title（参考訳）: クエリのみを意識した継続的学習
Authors: Gautham Bekal, Ashish Pujari, Scott David Kelly,
Abstract要約: 継続的な学習には、データポイントを繰り返すことなく、データのストリームから学ぶことが含まれる。本稿では,キーと値を捨てるクエリのみのアテンション機構を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continual learning involves learning from a stream of data without repetition of data points, a scenario that is inherently complex due to distributional shift across tasks. We propose a query-only attention mechanism that discards keys and values, yet preserves the core inductive bias of transformer architectures. In continual learning scenarios, this simplified mechanism significantly mitigates both loss of plasticity and catastrophic forgetting, outperforming baselines such as selective re-initialization. We establish a conceptual link between query-only attention, full transformer attention, and model agnostic meta-learning, framing them as instances of meta-learning. We further provide intuition for why query-based models and attention networks help preserve plasticity in continual settings. Finally, through preliminary Hessian spectrum analysis, we observe that models maintaining higher curvature rank across tasks tend to retain plasticity. Our findings suggest that full attention may not be essential for capturing the benefits of meta-learning in continual learning.
Abstract（参考訳）: 継続的な学習には、複数のデータポイントを繰り返すことなく、データストリームから学ぶことが含まれる。本稿では,キーと値を捨てるクエリのみのアテンション機構を提案する。連続的な学習シナリオでは、この単純化されたメカニズムは、可塑性の喪失と破滅的な忘れ込みの両方を著しく軽減し、選択的な再初期化のようなベースラインよりも優れている。我々は,クエリのみの注意,フルトランスフォーマーの注意,メタラーニングをメタラーニングの例とみなすモデル非依存メタラーニングの概念的リンクを確立する。さらに、クエリベースのモデルとアテンションネットワークが、連続的な設定で可塑性を維持するのに役立つ理由を直感的に説明します。最後に、予備的なヘッセンスペクトル分析により、タスク間の高い曲率を維持するモデルが可塑性を維持する傾向があることを観察する。本研究から,メタラーニングのメリットを把握するためには,注意が不可欠でない可能性が示唆された。

関連論文リスト

Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文参考訳（メタデータ） (2024-02-06T11:13:54Z)
Using Early Readouts to Mediate Featural Bias in Distillation [30.5299408494168]
ディープネットワークは、現実世界の教師付き学習タスクにおいて、突発的な特徴ラベル相関を学習する傾向がある。本稿では,従来のネットワーク層からの表現を用いてラベルを予測しようとする新しい早期読み出し機構を提案する。
論文参考訳（メタデータ） (2023-10-28T04:58:15Z)
On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文参考訳（メタデータ） (2023-10-19T12:18:24Z)
Meta-learning framework with applications to zero-shot time-series forecasting [82.61728230984099]
この研究は幅広いメタラーニングフレームワークを使って肯定的な証拠を提供する。残余接続はメタラーニング適応機構として機能する。我々は、ソースTSデータセット上でニューラルネットワークをトレーニングし、異なるターゲットTSデータセット上で再トレーニングすることなくデプロイできることを示します。
論文参考訳（メタデータ） (2020-02-07T16:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。