Fugu-MT 論文翻訳(概要): $\textrm{D}^3\textrm{Former}$: Debiased Dual Distilled Transformer for Incremental Learning

論文の概要: $\textrm{D}^3\textrm{Former}$: Debiased Dual Distilled Transformer for Incremental Learning

arxiv url: http://arxiv.org/abs/2208.00777v1
Date: Mon, 25 Jul 2022 08:54:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-07 14:16:07.373385
Title: $\textrm{D}^3\textrm{Former}$: Debiased Dual Distilled Transformer for Incremental Learning
Title（参考訳）: $\textrm{d}^3\textrm{former}$:増分学習のための脱バイアス二重蒸留変圧器
Authors: Abdelrahman Mohamed, Rushali Grandhe, KJ Joseph, Salman Khan, Fahad Khan
Abstract要約: クラスインクリメンタルラーニング(CIL)は、学習フェーズ毎に新しいクラスのグループに遭遇する分類モデルを学ぶことを伴う。我々は、$textrmD3textrmFormer$というCIL用のデバイアスドデュアル蒸留トランスを開発した。
参考スコア（独自算出の注目度）: 25.65032941918354
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Class incremental learning (CIL) involves learning a classification model where groups of new classes are encountered in every learning phase. The goal is to learn a unified model performant on all the classes observed so far. Given the recent popularity of Vision Transformers (ViTs) in conventional classification settings, an interesting question is to study their continual learning behaviour. In this work, we develop a Debiased Dual Distilled Transformer for CIL dubbed $\textrm{D}^3\textrm{Former}$. The proposed model leverages a hybrid nested ViT design to ensure data efficiency and scalability to small as well as large datasets. In contrast to a recent ViT based CIL approach, our $\textrm{D}^3\textrm{Former}$ does not dynamically expand its architecture when new tasks are learned and remains suitable for a large number of incremental tasks. The improved CIL behaviour of $\textrm{D}^3\textrm{Former}$ owes to two fundamental changes to the ViT design. First, we treat the incremental learning as a long-tail classification problem where the majority samples from new classes vastly outnumber the limited exemplars available for old classes. To avoid biasness against the minority old classes, we propose to dynamically adjust logits to emphasize on retaining the representations relevant to old tasks. Second, we propose to preserve the configuration of spatial attention maps as the learning progresses across tasks. This helps in reducing catastrophic forgetting via constraining the model to retain the attention on the most discriminative regions. $\textrm{D}^3\textrm{Former}$ obtains favorable results on incremental versions of CIFAR-100, MNIST, SVHN, and ImageNet datasets.
Abstract（参考訳）: クラスインクリメンタル学習(cil)は、学習段階ごとに新しいクラスのグループが遭遇する分類モデルを学ぶことを伴う。目標は、今まで観察されたすべてのクラスで統一モデルパフォーマンスを学習することである。従来の分類環境における視覚変換器(ViT)の近年の人気を考えると,その継続的な学習行動を研究することが興味深い。本研究では,Debiased Dual Distilled Transformer for CIL, $\textrm{D}^3\textrm{Former}$を開発した。提案モデルでは,データ効率と拡張性を確保するために,ハイブリッドネスト型ViT設計を採用している。最近の ViT ベースの CIL アプローチとは対照的に,我々の $\textrm{D}^3\textrm{Former}$ は,新しいタスクが学習されると動的にアーキテクチャを拡張せず,多数のインクリメンタルタスクに適している。改善されたCILの振る舞いは、$\textrm{D}^3\textrm{Former}$の2つの基本的変更によるものである。まず,段階的な学習を,新しいクラスからの大多数のサンプルが,古いクラスで利用可能な限られた例をはるかに上回っている,長期的分類問題として扱う。マイノリティな古いクラスに対する偏見を避けるため、ロジットを動的に調整し、古いタスクに関連する表現を維持することを強調することを提案する。第2に,タスク間の学習が進むにつれて空間的注意マップの構成を維持することを提案する。これは、最も差別的な領域への注意を維持するためにモデルを制約することで、破滅的な忘れを減らせるのに役立つ。 $\textrm{D}^3\textrm{Former}$は、CIFAR-100、MNIST、SVHN、ImageNetデータセットのインクリメンタルバージョンで好ましい結果を得る。

関連論文リスト

Learning Dynamics of Meta-Learning in Small Model Pretraining [2.6684726101845]
我々は,一階のMAMLとサブセットメイクLM事前学習を統合した。 LLama-style decoder-only model(11M-570M params) を4つの生成する。多くの設定や実世界のアプリケーションで基本的なNLPタスクで評価する。
論文参考訳（メタデータ） (2025-08-04T08:34:30Z)
H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning [25.65324419553667]
我々は,視覚的特徴と行動生成の統合を強化するために,階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$textbfTriply-Hierarchical Diffusion Policy(textbfH$mathbf3$DP)を紹介した。大規模な実験では、H$3$DPは$mathbf+27.5%の平均相対的な改善を$mathbf44$のシミュレーションタスクで達成し、$mathbf4$の挑戦的な実世界の操作タスクで優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-12T17:59:43Z)
Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\ exttt{D}}$ual-$\mathbf{\ exttt{H}}$ead $\mathbf{\ exttt{O}}$ptimization [49.2338910653152]
VLM(Vision-Constrained Model)は、ラベル付きデータが最小限に抑えられたリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングがしばしば行われている。本稿では,VLMの知識を,半言語設定でコンパクトなタスク固有モデルに伝達する,シンプルで効果的なKDフレームワークであるmathbftextttDHO$を提案する。
論文参考訳（メタデータ） (2025-05-12T15:39:51Z)
Foundation Model-Powered 3D Few-Shot Class Incremental Learning via Training-free Adaptor [9.54964908165465]
本稿では,3Dポイントクラウド環境におけるFew-Shot連続インクリメンタルラーニング問題に対処する新しい手法を提案する。私たちは、ポイントクラウドデータに基づいて広範囲にトレーニングされた基礎的な3Dモデルを活用します。このアプローチでは、二重キャッシュシステムを使用します。まず、モデルの予測にどれだけ自信があるかに基づいて、以前のテストサンプルを使用し、次に、オーバーフィッティングを防ぐために、少数の新しいタスクサンプルを含んでいます。
論文参考訳（メタデータ） (2024-10-11T20:23:00Z)
Class-Incremental Learning with CLIP: Adaptive Representation Adjustment and Parameter Fusion [10.322832012497722]
クラス増分学習(class-incremental learning)は難しい問題であり、目標は、時間とともに増加するクラスからデータを分類できるモデルをトレーニングすることである。 CLIPのような視覚言語で事前訓練されたモデルの進歩により、彼らは優れた一般化能力を示した。しかし、単にモデルを微調整することで、下流タスクへのさらなる適応は、ひどく忘れてしまう。事前訓練されたモデルを用いた既存の研究の多くは、モデルが新しい知識を得るとき、古いクラスを忘れることは一様であると仮定している。
論文参考訳（メタデータ） (2024-07-19T09:20:33Z)
Inheritune: Training Smaller Yet More Attentive Language Models [61.363259848264725]
Inherituneは、より小型で高性能な言語モデルを開発するための、シンプルで効果的なトレーニングレシピである。 Inheritune は OpenWebText-9B や FineWeb_edu のようなデータセット上で GPT-2 モデルのさまざまなサイズのトレーニングを可能にする。
論文参考訳（メタデータ） (2024-04-12T17:53:34Z)
Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。提案手法は適応生成モデルを用いて画像のラベルを直接生成する。 Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文参考訳（メタデータ） (2024-03-27T09:21:07Z)
Expandable Subspace Ensemble for Pre-Trained Model-Based Class-Incremental Learning [65.57123249246358]
PTMベースのCILのためのExpAndable Subspace Ensemble (EASE)を提案する。タスク固有のサブスペースを作成することを目的として、新しいタスクごとに異なる軽量アダプタモジュールをトレーニングする。我々のプロトタイプ補完戦略は、古いクラスのインスタンスを使わずに、古いクラスの新機能を合成します。
論文参考訳（メタデータ） (2024-03-18T17:58:13Z)
CEAT: Continual Expansion and Absorption Transformer for Non-Exemplar Class-Incremental Learning [34.59310641291726]
現実のアプリケーションでは、動的シナリオは、古い知識を忘れずに新しいタスクを継続的に学習する能力を持つ必要がある。連続膨張吸収変圧器(CEAT)という新しいアーキテクチャを提案する。このモデルは、凍結した前のパラメータと平行に拡散層を拡張することで、新しい知識を学ぶことができる。モデルの学習能力を向上させるために,特徴空間における古クラスと新クラスの重複を低減するために,新しいプロトタイプを設計した。
論文参考訳（メタデータ） (2024-03-11T12:40:12Z)
A streamlined Approach to Multimodal Few-Shot Class Incremental Learning for Fine-Grained Datasets [23.005760505169803]
FSCIL(Few-shot Class-Incremental Learning)は、限られた新しいデータストリームから学習しながら、事前の知識を維持するという課題を提起する。本稿では,セッション間の画像テキスト埋め込みの分離性を向上するSSP(Session-Specific Prompts)を提案する。第2のハイパーボリック距離は、同じクラス内の画像とテキストのペアの表現を圧縮し、異なるクラスから拡張し、より良い表現をもたらす。
論文参考訳（メタデータ） (2024-03-10T19:50:03Z)
Two Independent Teachers are Better Role Model [7.001845833295753]
我々は3D-DenseUNetと呼ばれる新しいディープラーニングモデルを提案する。ダウンサンプリングにおけるグローバルアグリゲーションブロックとして機能し、空間情報損失の問題を解決する。また,ラベル予測の代わりにモデル重みを要約した「2つの独立教師」という手法を提案する。
論文参考訳（メタデータ） (2023-06-09T08:22:41Z)
Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。 MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-11-17T16:15:30Z)
SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文参考訳（メタデータ） (2022-07-16T19:25:41Z)
Not All Models Are Equal: Predicting Model Transferability in a Self-challenging Fisher Space [51.62131362670815]
本稿では、トレーニング済みのディープニューラルネットワークのランク付けと、下流タスクにおける最も転送可能なニューラルネットワークのスクリーニングの問題に対処する。 textbfSelf-challenging textbfFisher textbfDiscriminant textbfAnalysis (textbfSFDA)と呼ばれる新しい転送可能性指標を提案する。
論文参考訳（メタデータ） (2022-07-07T01:33:25Z)
Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-03-31T13:46:41Z)
Shared and Private VAEs with Generative Replay for Continual Learning [1.90365714903665]
継続的学習は、学習済みのタスクを忘れずに新しいタスクを学習しようとする。既存のartificial neural network (ann)モデルのほとんどは失敗するが、人間は生涯にわたって過去の作品を思い出して同じことをする。我々は,MNIST,Permuted MNIST(QMNIST),CIFAR100,MiniImageNetデータセットなどの視覚的連続学習ベンチマークにおいて,このハイブリッドモデルの有効性を示す。
論文参考訳（メタデータ） (2021-05-17T06:18:36Z)
Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文参考訳（メタデータ） (2021-04-01T13:55:21Z)
Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。 ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文参考訳（メタデータ） (2021-02-01T20:58:45Z)
MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文参考訳（メタデータ） (2020-02-25T15:21:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。