論文の概要: Semantic-visual Guided Transformer for Few-shot Class-incremental
Learning
- arxiv url: http://arxiv.org/abs/2303.15494v1
- Date: Mon, 27 Mar 2023 15:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-03-29 17:47:12.327543
- Title: Semantic-visual Guided Transformer for Few-shot Class-incremental
Learning
- Title(参考訳): 授業増分学習のための意味視覚変換器
- Authors: Wenhao Qiu, Sichao Fu, Jingyi Zhang, Chengxiang Lei, Qinmu Peng
- Abstract要約: 本研究では,事前学習した機能バックボーンの機能抽出能力を向上させるために,セマンティック・ビジュアル・ガイド付きトランスフォーマー (SV-T) を開発した。
我々のSV-Tは、ベースクラスからのより監督的な情報を最大限に活用し、機能バックボーンのトレーニングロバスト性をさらに強化できます。
- 参考スコア(独自算出の注目度): 6.300141694311465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot class-incremental learning (FSCIL) has recently attracted extensive
attention in various areas. Existing FSCIL methods highly depend on the
robustness of the feature backbone pre-trained on base classes. In recent
years, different Transformer variants have obtained significant processes in
the feature representation learning of massive fields. Nevertheless, the
progress of the Transformer in FSCIL scenarios has not achieved the potential
promised in other fields so far. In this paper, we develop a semantic-visual
guided Transformer (SV-T) to enhance the feature extracting capacity of the
pre-trained feature backbone on incremental classes. Specifically, we first
utilize the visual (image) labels provided by the base classes to supervise the
optimization of the Transformer. And then, a text encoder is introduced to
automatically generate the corresponding semantic (text) labels for each image
from the base classes. Finally, the constructed semantic labels are further
applied to the Transformer for guiding its hyperparameters updating. Our SV-T
can take full advantage of more supervision information from base classes and
further enhance the training robustness of the feature backbone. More
importantly, our SV-T is an independent method, which can directly apply to the
existing FSCIL architectures for acquiring embeddings of various incremental
classes. Extensive experiments on three benchmarks, two FSCIL architectures,
and two Transformer variants show that our proposed SV-T obtains a significant
improvement in comparison to the existing state-of-the-art FSCIL methods.
- Abstract(参考訳): FSCIL(Few-shot class-incremental Learning)は近年,様々な分野で注目されている。
既存のFSCILメソッドは、ベースクラスで事前訓練された機能バックボーンの堅牢性に大きく依存する。
近年、異なる変圧器変種が大規模場の特徴表現学習において重要なプロセスを得ている。
しかしながら、FSCILシナリオにおけるTransformerの進歩は、これまで他の分野で約束されていた可能性を達成するには至っていない。
本稿では,インクリメンタルなクラスにおいて,事前学習した機能バックボーンの機能抽出能力を高めるために,セマンティックビジュアルガイド型トランス (SV-T) を開発した。
具体的には、まずベースクラスが提供する視覚(画像)ラベルを使用してトランスフォーマの最適化を監督する。
そして、テキストエンコーダを導入して、ベースクラスから各画像の対応する意味(テキスト)ラベルを自動的に生成する。
最後に、構築された意味ラベルをトランスフォーマーにさらに適用し、ハイパーパラメータの更新を導く。
私たちのsv-tは、ベースクラスからの監視情報を最大限に活用し、機能バックボーンのトレーニング堅牢性をさらに向上できます。
さらに重要なことは、SV-Tは独立した手法であり、様々な漸進クラスの埋め込みを取得するために既存のFSCILアーキテクチャに直接適用できます。
3つのベンチマーク,2つのFSCILアーキテクチャ,および2つのTransformer変種に対する大規模な実験により,提案したSV-Tは,既存のFSCIL法と比較して大幅に改善された。
関連論文リスト
- Advancements in Natural Language Processing: Exploring Transformer-Based Architectures for Text Understanding [10.484788943232674]
本稿では,BERT や GPT などのトランスフォーマーモデルの進歩を考察し,テキスト理解タスクにおける優れた性能に着目した。
その結果、GLUEやSQuADのようなベンチマークでは、高い計算コストなどの課題はあるものの、F1スコアが90%を超えている。
論文 参考訳(メタデータ) (2025-03-26T04:45:33Z) - Layer-Wise Evolution of Representations in Fine-Tuned Transformers: Insights from Sparse AutoEncoders [0.0]
微調整事前学習トランスは、特定のタスクにおけるベースモデルの性能を向上させるための強力な技術である。
本稿では,微細チューニングの基礎となるメカニズム,特にBERT変換器について考察する。
論文 参考訳(メタデータ) (2025-02-23T21:29:50Z) - Transformer as Linear Expansion of Learngene [38.16612771203953]
リニア・エクスパンジョン・オブ・ラーニングジェネレーション(TLEG)は多様な深さのトランスフォーマーを柔軟に生成・初期化する新しい手法である。
ImageNet-1Kの実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと対照的に、同等またはより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-09T17:01:18Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Pre-training Transformers for Knowledge Graph Completion [81.4078733132239]
知識グラフの伝達可能な表現を学習するための新しい帰納的KG表現モデル(iHT)を提案する。
iHT はエンティティエンコーダ (BERT など) と、Transformer によってパラメータ化される隣り合うリレーショナルスコアリング関数からなる。
提案手法は,従来のSOTAモデルに比べて25%以上の相対的相互ランクの改善が得られた。
論文 参考訳(メタデータ) (2023-03-28T02:10:37Z) - Foundation Transformers [105.06915886136524]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。
本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文 参考訳(メタデータ) (2022-10-12T17:16:27Z) - TransReID: Transformer-based Object Re-Identification [20.02035310635418]
Vision Transformer (ViT) は、オブジェクト再識別(ReID)タスクのための純粋なトランスフォーマーベースのモデルである。
いくつかの適応により、強いベースラインのViT-BoTは、ViTをバックボーンとして構成される。
本稿では、TransReIDと呼ばれる純粋なトランスフォーマーフレームワークを提案し、これはReID研究に純粋なトランスフォーマーを用いた最初の研究である。
論文 参考訳(メタデータ) (2021-02-08T17:33:59Z) - Transformer-based Conditional Variational Autoencoder for Controllable
Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。
我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。
具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文 参考訳(メタデータ) (2021-01-04T08:31:11Z) - Multi-branch Attentive Transformer [152.07840447196384]
我々は,マルチブランチ・アテンティブ・トランスフォーマーと呼ばれる,シンプルで効果的なトランスフォーマーの変種を提案する。
注目層は複数のブランチの平均であり、各ブランチは独立したマルチヘッド注意層である。
機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-06-18T04:24:28Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。