論文の概要: Learning to Grow Artificial Hippocampi in Vision Transformers for
Resilient Lifelong Learning
- arxiv url: http://arxiv.org/abs/2303.08250v1
- Date: Tue, 14 Mar 2023 21:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:34:22.823785
- Title: Learning to Grow Artificial Hippocampi in Vision Transformers for
Resilient Lifelong Learning
- Title(参考訳): 回復型生涯学習のための視覚トランスフォーマーにおける人工海馬育成のための学習
- Authors: Chinmay Savadikar, Michelle Dai, Tianfu Wu
- Abstract要約: 本稿では,視覚変換器(ViT)における人工海馬(ArtiHippo)の学習方法を提案する。
ArtiHippoは専門家(MoEs)の混合によって表現される
新しい課題として, 階層型タスク類似性指向探索-探索-探索サンプリングに基づくNASを提案し, エキスパートコンポーネントの学習を行った。
- 参考スコア(独自算出の注目度): 7.91996056452393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lifelong learning without catastrophic forgetting (i.e., resiliency)
possessed by human intelligence is entangled with sophisticated memory
mechanisms in the brain, especially the long-term memory (LM) maintained by
Hippocampi. To a certain extent, Transformers have emerged as the counterpart
``Brain" of Artificial Intelligence (AI), and yet leave the LM component
under-explored for lifelong learning settings. This paper presents a method of
learning to grow Artificial Hippocampi (ArtiHippo) in Vision Transformers
(ViTs) for resilient lifelong learning. With a comprehensive ablation study,
the final linear projection layer in the multi-head self-attention (MHSA) block
is selected in realizing and growing ArtiHippo. ArtiHippo is represented by a
mixture of experts (MoEs). Each expert component is an on-site variant of the
linear projection layer, maintained via neural architecture search (NAS) with
the search space defined by four basic growing operations -- skip, reuse,
adapt, and new in lifelong learning. The LM of a task consists of two parts:
the dedicated expert components (as model parameters) at different layers of a
ViT learned via NAS, and the mean class-tokens (as stored latent vectors for
measuring task similarity) associated with the expert components. For a new
task, a hierarchical task-similarity-oriented exploration-exploitation sampling
based NAS is proposed to learn the expert components. The task similarity is
measured based on the normalized cosine similarity between the mean class-token
of the new task and those of old tasks. The proposed method is complementary to
prompt-based lifelong learningwith ViTs. In experiments, the proposed method is
tested on the challenging Visual Domain Decathlon (VDD) benchmark and the
recently proposed 5-Dataset benchmark. It obtains consistently better
performance than the prior art with sensible ArtiHippo learned continually.
- Abstract(参考訳): 人間の知能によって保持される破滅的な記憶(レジリエンス)のない生涯学習は、脳の洗練された記憶機構、特にヒッポカンピが維持する長期記憶(LM)と絡み合っている。
ある程度の間、トランスフォーマーは人工知能(ai)の「脳」に相当するものとして登場してきたが、lmコンポーネントは生涯学習設定のために未熟のまま残されている。
本稿では,視覚変換器(ViT)における人工海馬(ArtiHippo)の学習方法を提案する。
包括的アブレーション研究により, マルチヘッド自己アテンション(MHSA)ブロックにおける最終線形プロジェクション層がArtiHippoの実現と成長において選択される。
ArtiHippoは専門家(MoEs)によって表現される。
各専門家コンポーネントは、ニューラルネットワーク検索(nas)を通じて維持されるリニアプロジェクション層のオンサイト版であり、スキップ、再利用、適応、生涯学習の新たな4つの基本的な成長操作によって定義された検索空間である。
タスクのlmは、nasによって学習されたvitの異なる層における専用のエキスパートコンポーネント(モデルパラメータとして)と、エキスパートコンポーネントに関連する平均クラストケント(タスクの類似性を測定するために格納された潜在ベクトルとして)の2つの部分からなる。
新しい課題として, 階層型タスク類似性指向探索-探索-探索サンプリングに基づくNASを提案する。
タスクの類似度は、新しいタスクの平均クラストケンと古いタスクの平均の正常化コサイン類似度に基づいて測定される。
提案手法はvitsを用いた生涯学習を補完するものである。
実験において、提案手法は挑戦的なvisual domain decathlon(vdd)ベンチマークと最近提案された5つのデータセットベンチマークでテストされている。
相変わらず学び続ける有能なアーティヒッポよりも一貫して優れたパフォーマンスを得る。
関連論文リスト
- BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human
Racing Gameplay [51.66557720632042]
模倣学習は、手作りの報酬関数を必要とせずに、デモンストレーションからポリシーを学ぶ。
本稿では,BeTAIL: Behavior Transformer Adversarial Imitation Learningを提案する。
我々は,Gran Turismo Sportにおけるリアルヒューマンゲームプレイのエキスパートレベルのデモンストレーションで,BeTAILを3つの課題でテストした。
論文 参考訳(メタデータ) (2024-02-22T00:38:43Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Breaking through the learning plateaus of in-context learning in
Transformer [46.73131236261085]
文脈学習(In-context learning)、すなわち文脈の例から学ぶことは、Transformerの印象的な能力である。
この文脈内学習スキルを持つための学習用トランスフォーマーは、学習台地の発生により、計算集約的である。
論文 参考訳(メタデータ) (2023-09-12T08:45:25Z) - BiRT: Bio-inspired Replay in Vision Transformers for Continual Learning [13.056764072568749]
人間は、破滅的な忘れ物なしに、生涯を通してタスクを通して知識を取得し、同化し、伝達する驚くべき能力を持っている。
視覚変換器を用いた表現リハーサルに基づく連続学習手法であるBiRTを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:19:39Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Meta-attention for ViT-backed Continual Learning [35.31816553097367]
視覚変換器(ViT)はコンピュータビジョンの分野を徐々に支配している。
ViTは、CNNベースの連続学習に簡単に適用すれば、深刻なパフォーマンス劣化に悩まされる可能性がある。
学習済みのタスクのパフォーマンスを犠牲にすることなく、トレーニング済みのViTを新しいタスクに適用するためのMeta-Atention(MEAT)を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:58:39Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - An Empirical Study of Training Self-Supervised Visual Transformers [70.27107708555185]
自己監視型視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。
これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
論文 参考訳(メタデータ) (2021-04-05T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。