Fugu-MT 論文翻訳(概要): Continual Learning via Learning a Continual Memory in Vision Transformer

論文の概要: Continual Learning via Learning a Continual Memory in Vision Transformer

arxiv url: http://arxiv.org/abs/2303.08250v4
Date: Tue, 08 Oct 2024 16:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 19:38:54.054074
Title: Continual Learning via Learning a Continual Memory in Vision Transformer
Title（参考訳）: 視覚変換器における連続記憶学習による連続学習
Authors: Chinmay Savadikar, Michelle Dai, Tianfu Wu,
Abstract要約: 視覚変換器(ViT)を用いたタスク増分連続学習(TCL)について検討する。私たちのゴールは、タスクのシナジーを学習することで、悲惨な忘れをすることなく、ストリーミングタスク全体のパフォーマンスを改善することです。タスクシナジーを効果的に学習するための階層型タスクシネギー探索-探索(HEE)サンプリングベースニューラルアーキテクチャサーチ(NAS)手法を提案する。
参考スコア（独自算出の注目度）: 7.116223171323158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies task-incremental continual learning (TCL) using Vision Transformers (ViTs). Our goal is to improve the overall streaming-task performance without catastrophic forgetting by learning task synergies (e.g., a new task learns to automatically reuse/adapt modules from previous similar tasks, or to introduce new modules when needed, or to skip some modules when it appears to be an easier task). One grand challenge is how to tame ViTs at streaming diverse tasks in terms of balancing their plasticity and stability in a task-aware way while overcoming the catastrophic forgetting. To address the challenge, we propose a simple yet effective approach that identifies a lightweight yet expressive ``sweet spot'' in the ViT block as the task-synergy memory in TCL. We present a Hierarchical task-synergy Exploration-Exploitation (HEE) sampling based neural architecture search (NAS) method for effectively learning task synergies by structurally updating the identified memory component with respect to four basic operations (reuse, adapt, new and skip) at streaming tasks. The proposed method is thus dubbed as CHEEM (Continual Hierarchical-Exploration-Exploitation Memory). In experiments, we test the proposed CHEEM on the challenging Visual Domain Decathlon (VDD) benchmark and the 5-Dataset benchmark. It obtains consistently better performance than the prior art with sensible CHEEM learned continually.
Abstract（参考訳）: 本稿では,視覚変換器(ViT)を用いたタスク増分連続学習(TCL)について検討する。私たちのゴールは、タスクのシナジーを学習することで破滅的な忘れをすることなく、ストリーミングタスク全体のパフォーマンスを改善することです(例えば、新しいタスクは、以前の類似タスクからモジュールを自動的に再利用/適応するか、必要に応じて新しいモジュールを導入するか、より簡単なタスクのように見えるモジュールをスキップすることを学びます)。ひとつの大きな課題は、可塑性と安定性をタスク意識でバランスさせながら、破滅的な忘れを乗り越えながら、ViTのさまざまなタスクをストリーミングする方法だ。この課題に対処するため,本研究では,VTブロックの軽量かつ表現力のある ``sweet spot''' を,TCLのタスクシネギーメモリとして識別する,シンプルかつ効果的なアプローチを提案する。本稿では,階層型タスクシネギー探索探索(HEE)サンプリングに基づくニューラルアーキテクチャ探索(NAS)手法について,ストリーミングタスクにおける4つの基本的な操作(再利用,適応,新規,スキップ)に対して,識別メモリコンポーネントを構造的に更新することにより,タスクシナジーを効果的に学習する。提案手法はCHEEM(Continual Hierarchical-Exploration-Exploitation Memory)と呼ばれる。実験では、Visual Domain Decathlon(VDD)ベンチマークと5-Datasetベンチマークで提案したCHEEMをテストする。従来のCHEEM技術よりも常に優れたパフォーマンスが得られる。

関連論文リスト

Few-Shot Vision-Language Action-Incremental Policy Learning [55.07841353049953]
トランスフォーマーに基づくロボット操作手法は,多視点空間表現と言語命令を用いてロボットの運動軌跡を学習する。既存のメソッドには、いくつかのデモだけで新しいタスクを継続的に学習する能力がない。我々はこれらの問題に対処するタスク-prOmpt graPh evolutIon poliCy (TOPIC) を開発した。
論文参考訳（メタデータ） (2025-04-22T01:30:47Z)
Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-12T17:41:23Z)
PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文参考訳（メタデータ） (2024-07-04T10:37:58Z)
Dynamic Transformer Architecture for Continual Learning of Multimodal Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-27T03:03:30Z)
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文参考訳（メタデータ） (2023-06-05T23:32:26Z)
Task-Attentive Transformer Architecture for Continual Learning of Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文参考訳（メタデータ） (2023-03-25T10:16:53Z)
Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning [60.501201259732625]
EFCILにタスク適応型サリエンシを導入し、タスク適応型サリエンシ・スーパービジョン(TASS)と呼ばれる新しいフレームワークを提案する。提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset EFCILベンチマークを用いて,タスク間のサリエンシマップの保存や,最先端の成果の達成に有効であることを示す。
論文参考訳（メタデータ） (2022-12-16T02:43:52Z)
A Unified Meta-Learning Framework for Dynamic Transfer Learning [42.34180707803632]
動的タスクにおける知識伝達可能性のモデリングのための汎用メタ学習フレームワークL2Eを提案する。 L2E は,(1) 動的タスク間の効果的な知識伝達可能性,(2) 新しい目標タスクへの迅速な適応,(3) 歴史的目標タスクに対する破滅的な忘れの軽減,(4) 既存の静的移動学習アルゴリズムを取り入れた柔軟性,といった特性を享受している。
論文参考訳（メタデータ） (2022-07-05T02:56:38Z)
Rethinking Task-Incremental Learning Baselines [5.771817160915079]
本稿では,タスク・インクリメンタル・ラーニングのための簡易かつ効果的な調整ネットワーク(SAN)を提案する。本研究では,3Dポイントクラウドオブジェクト (ModelNet40) と2Dイメージ (CIFAR10, CIFAR100, MiniImageNet, MNIST, PermutedMNIST, notMNIST, SVHN, FashionMNIST) の認識タスクについて検討する。
論文参考訳（メタデータ） (2022-05-23T14:52:38Z)
Continual Object Detection via Prototypical Task Correlation Guided Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。 COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文参考訳（メタデータ） (2022-05-06T07:31:28Z)
Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2021-11-22T18:59:15Z)
Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文参考訳（メタデータ） (2021-09-15T21:19:11Z)
Efficient Continual Learning with Modular Networks and Task-Driven Priors [31.03712334701338]
継続学習(CL)における既存の文献は、破滅的な忘れを克服することに焦点を当てている。新しいモジュールアーキテクチャを導入し、モジュールは特定のタスクを実行するために構成できる原子スキルを表す。学習アルゴリズムは,モジュールを結合するあらゆる方法の指数関数探索空間上でタスク駆動前処理を活用し,タスクの長いストリームでの効率的な学習を可能にする。
論文参考訳（メタデータ） (2020-12-23T12:42:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。