論文の概要: FCL-ViT: Task-Aware Attention Tuning for Continual Learning
- arxiv url: http://arxiv.org/abs/2412.02509v2
- Date: Wed, 04 Dec 2024 17:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 11:47:10.830649
- Title: FCL-ViT: Task-Aware Attention Tuning for Continual Learning
- Title(参考訳): FCL-ViT:継続的学習のためのタスク認識アテンションチューニング
- Authors: Anestis Kaimakamidis, Ioannis Pitas,
- Abstract要約: 継続学習(CL)では、以前のディープニューラルネットワーク(DNN)の知識を、古い知識を忘れずに新しいタスクに適応させる。
本稿では、フィードバック機構を用いて、現在のタスクに合わせたリアルタイムな動的注意機能を生成する新しいフィードバック継続学習視覚変換器(FCL-ViT)を提案する。
- 参考スコア(独自算出の注目度): 14.98890428976267
- License:
- Abstract: Continual Learning (CL) involves adapting the prior Deep Neural Network (DNN) knowledge to new tasks, without forgetting the old ones. However, modern CL techniques focus on provisioning memory capabilities to existing DNN models rather than designing new ones that are able to adapt according to the task at hand. This paper presents the novel Feedback Continual Learning Vision Transformer (FCL-ViT) that uses a feedback mechanism to generate real-time dynamic attention features tailored to the current task. The FCL-ViT operates in two Phases. In phase 1, the generic image features are produced and determine where the Transformer should attend on the current image. In phase 2, task-specific image features are generated that leverage dynamic attention. To this end, Tunable self-Attention Blocks (TABs) and Task Specific Blocks (TSBs) are introduced that operate in both phases and are responsible for tuning the TABs attention, respectively. The FCL-ViT surpasses state-of-the-art performance on Continual Learning compared to benchmark methods, while retaining a small number of trainable DNN parameters.
- Abstract(参考訳): 継続学習(CL)では、以前のディープニューラルネットワーク(DNN)の知識を、古い知識を忘れずに新しいタスクに適応させる。
しかし、現代のCL技術は、タスクに応じて適応できる新しいモデルを設計するのではなく、既存のDNNモデルにメモリ能力を供給することに焦点を当てている。
本稿では、フィードバック機構を用いて、現在のタスクに合わせたリアルタイムな動的注意機能を生成する新しいフィードバック継続学習視覚変換器(FCL-ViT)を提案する。
FCL-ViTは2つのフェーズで運用されている。
フェーズ1では、一般的なイメージ特徴が生成され、トランスフォーマーが現在のイメージにどこに出席すべきかが決定される。
フェーズ2では、動的注意力を利用するタスク固有の画像特徴が生成される。
この目的のために、Tunable Self-Attention Blocks (TABs) と Task Specific Blocks (TSBs) が導入され、それぞれのフェーズで動作し、TABの注意を調整している。
FCL-ViTは、ベンチマーク手法と比較して、継続学習の最先端性能を上回り、少数のトレーニング可能なDNNパラメータを保持する。
関連論文リスト
- A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - Volume-Preserving Transformers for Learning Time Series Data with Structure [0.0]
我々はトランスフォーマーにインスパイアされたニューラルネットワークを開発し、それを使って力学系を学習する。
我々は,アテンション層の活性化関数を構造保存特性を持つ変圧器に置き換える。
これは、ニューラルネットワークを剛体軌道の学習に応用する際の大きな利点である。
論文 参考訳(メタデータ) (2023-12-18T13:09:55Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For
Vision-and-Language Navigation [6.11362142120604]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、重要な、しかし困難なクロスモーダル・ナビゲーションタスクである。
VLNの性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。
本稿では,ネットワークのコアとしてトランスフォーマーを用いるPASTSモデルを提案する。
論文 参考訳(メタデータ) (2023-05-19T02:25:56Z) - Continual Learning via Learning a Continual Memory in Vision Transformer [7.116223171323158]
視覚変換器(ViT)を用いたタスク増分連続学習(TCL)について検討する。
私たちのゴールは、タスクのシナジーを学習することで、悲惨な忘れをすることなく、ストリーミングタスク全体のパフォーマンスを改善することです。
タスクシナジーを効果的に学習するための階層型タスクシネギー探索-探索(HEE)サンプリングベースニューラルアーキテクチャサーチ(NAS)手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T21:52:27Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Online Continual Learning with Contrastive Vision Transformer [67.72251876181497]
本稿では,オンラインCLの安定性と塑性のトレードオフを改善するために,CVT(Contrastive Vision Transformer)フレームワークを提案する。
具体的には、従来のタスクに関する情報を暗黙的にキャプチャするオンラインCLのための新しい外部アテンション機構を設計する。
学習可能な焦点に基づいて、新しいクラスと過去のクラスの間でのコントラスト学習を再バランスさせ、事前学習した表現を統合化するための焦点コントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-24T08:51:02Z) - E2-AEN: End-to-End Incremental Learning with Adaptively Expandable
Network [57.87240860624937]
本稿では,E2-AENという,エンドツーエンドのトレーニング可能な適応拡張可能なネットワークを提案する。
以前のタスクの精度を落とさずに、新しいタスクのための軽量な構造を動的に生成する。
E2-AENはコストを削減し、あらゆるフィードフォワードアーキテクチャをエンドツーエンドで構築できる。
論文 参考訳(メタデータ) (2022-07-14T09:04:51Z) - Sequencer: Deep LSTM for Image Classification [0.0]
最近のコンピュータビジョン研究において、ViT(Vision Transformer)の出現は、様々なアーキテクチャ設計の取り組みに急速に革命をもたらした。
提案するSequencerは,ViTに代わる,斬新で競争力のあるアーキテクチャである。
その単純さにもかかわらず、いくつかの実験はSequencerが素晴らしい性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-04T09:47:46Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。