論文の概要: Continual Learning via Learning a Continual Memory in Vision Transformer
- arxiv url: http://arxiv.org/abs/2303.08250v4
- Date: Tue, 08 Oct 2024 16:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:14.384611
- Title: Continual Learning via Learning a Continual Memory in Vision Transformer
- Title(参考訳): 視覚変換器における連続記憶学習による連続学習
- Authors: Chinmay Savadikar, Michelle Dai, Tianfu Wu,
- Abstract要約: 視覚変換器(ViT)を用いたタスク増分連続学習(TCL)について検討する。
私たちのゴールは、タスクのシナジーを学習することで、悲惨な忘れをすることなく、ストリーミングタスク全体のパフォーマンスを改善することです。
タスクシナジーを効果的に学習するための階層型タスクシネギー探索-探索(HEE)サンプリングベースニューラルアーキテクチャサーチ(NAS)手法を提案する。
- 参考スコア(独自算出の注目度): 7.116223171323158
- License:
- Abstract: This paper studies task-incremental continual learning (TCL) using Vision Transformers (ViTs). Our goal is to improve the overall streaming-task performance without catastrophic forgetting by learning task synergies (e.g., a new task learns to automatically reuse/adapt modules from previous similar tasks, or to introduce new modules when needed, or to skip some modules when it appears to be an easier task). One grand challenge is how to tame ViTs at streaming diverse tasks in terms of balancing their plasticity and stability in a task-aware way while overcoming the catastrophic forgetting. To address the challenge, we propose a simple yet effective approach that identifies a lightweight yet expressive ``sweet spot'' in the ViT block as the task-synergy memory in TCL. We present a Hierarchical task-synergy Exploration-Exploitation (HEE) sampling based neural architecture search (NAS) method for effectively learning task synergies by structurally updating the identified memory component with respect to four basic operations (reuse, adapt, new and skip) at streaming tasks. The proposed method is thus dubbed as CHEEM (Continual Hierarchical-Exploration-Exploitation Memory). In experiments, we test the proposed CHEEM on the challenging Visual Domain Decathlon (VDD) benchmark and the 5-Dataset benchmark. It obtains consistently better performance than the prior art with sensible CHEEM learned continually.
- Abstract(参考訳): 本稿では,視覚変換器(ViT)を用いたタスク増分連続学習(TCL)について検討する。
私たちのゴールは、タスクのシナジーを学習することで破滅的な忘れをすることなく、ストリーミングタスク全体のパフォーマンスを改善することです(例えば、新しいタスクは、以前の類似タスクからモジュールを自動的に再利用/適応するか、必要に応じて新しいモジュールを導入するか、より簡単なタスクのように見えるモジュールをスキップすることを学びます)。
ひとつの大きな課題は、可塑性と安定性をタスク意識でバランスさせながら、破滅的な忘れを乗り越えながら、ViTのさまざまなタスクをストリーミングする方法だ。
この課題に対処するため,本研究では,VTブロックの軽量かつ表現力のある ``sweet spot''' を,TCLのタスクシネギーメモリとして識別する,シンプルかつ効果的なアプローチを提案する。
本稿では,階層型タスクシネギー探索探索(HEE)サンプリングに基づくニューラルアーキテクチャ探索(NAS)手法について,ストリーミングタスクにおける4つの基本的な操作(再利用,適応,新規,スキップ)に対して,識別メモリコンポーネントを構造的に更新することにより,タスクシナジーを効果的に学習する。
提案手法はCHEEM(Continual Hierarchical-Exploration-Exploitation Memory)と呼ばれる。
実験では、Visual Domain Decathlon(VDD)ベンチマークと5-Datasetベンチマークで提案したCHEEMをテストする。
従来のCHEEM技術よりも常に優れたパフォーマンスが得られる。
関連論文リスト
- BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay [48.75878234995544]
模倣学習は、手作りの報酬関数を必要とせずに、デモンストレーションからポリシーを学ぶ。
本稿では,BeTAIL: Behavior Transformer Adversarial Imitation Learningを提案する。
我々は,Gran Turismo Sportにおけるリアルヒューマンゲームプレイのエキスパートレベルのデモンストレーションで,BeTAILを3つの課題でテストした。
論文 参考訳(メタデータ) (2024-02-22T00:38:43Z) - Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems [27.681141346132286]
多段階決定タスクに直面する場合の変圧器の訓練損失の迅速化について検討した。
合成タスクを用いて問題を詳細に研究するが、言語モデリングや文脈内学習にも性能の飛躍が観察できる。
我々は,言語モデリングとICLの訓練を改善するために,合成多段階タスクを改善するためのコネクションを見つけ,その方法を示す。
論文 参考訳(メタデータ) (2023-10-19T17:55:06Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - BiRT: Bio-inspired Replay in Vision Transformers for Continual Learning [13.056764072568749]
人間は、破滅的な忘れ物なしに、生涯を通してタスクを通して知識を取得し、同化し、伝達する驚くべき能力を持っている。
視覚変換器を用いた表現リハーサルに基づく連続学習手法であるBiRTを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:19:39Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Meta-attention for ViT-backed Continual Learning [35.31816553097367]
視覚変換器(ViT)はコンピュータビジョンの分野を徐々に支配している。
ViTは、CNNベースの連続学習に簡単に適用すれば、深刻なパフォーマンス劣化に悩まされる可能性がある。
学習済みのタスクのパフォーマンスを犠牲にすることなく、トレーニング済みのViTを新しいタスクに適用するためのMeta-Atention(MEAT)を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:58:39Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - An Empirical Study of Training Self-Supervised Visual Transformers [70.27107708555185]
自己監視型視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。
これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
論文 参考訳(メタデータ) (2021-04-05T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。