論文の概要: Core Tokensets for Data-efficient Sequential Training of Transformers
- arxiv url: http://arxiv.org/abs/2410.05800v1
- Date: Tue, 8 Oct 2024 08:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:49:50.727533
- Title: Core Tokensets for Data-efficient Sequential Training of Transformers
- Title(参考訳): 変圧器のデータ効率向上のためのコアトークンセット
- Authors: Subarnaduti Paul, Manuel Brack, Patrick Schramowski, Kristian Kersting, Martin Mundt,
- Abstract要約: ディープネットワークはしばしば新しいタスクに調整され、進行中のデータストリームから学び続ける。
伝統的に、これらのコアセットは画像や文などの全サンプルで構成されている。
最近のトランスフォーマーアーキテクチャはトークンで動作しており、画像が16x16ワードの価値があるという有名な主張につながっている。
- 参考スコア(独自算出の注目度): 28.15517815625402
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep networks are frequently tuned to novel tasks and continue learning from ongoing data streams. Such sequential training requires consolidation of new and past information, a challenge predominantly addressed by retaining the most important data points - formally known as coresets. Traditionally, these coresets consist of entire samples, such as images or sentences. However, recent transformer architectures operate on tokens, leading to the famous assertion that an image is worth 16x16 words. Intuitively, not all of these tokens are equally informative or memorable. Going beyond coresets, we thus propose to construct a deeper-level data summary on the level of tokens. Our respectively named core tokensets both select the most informative data points and leverage feature attribution to store only their most relevant features. We demonstrate that core tokensets yield significant performance retention in incremental image classification, open-ended visual question answering, and continual image captioning with significantly reduced memory. In fact, we empirically find that a core tokenset of 1\% of the data performs comparably to at least a twice as large and up to 10 times larger coreset.
- Abstract(参考訳): ディープネットワークはしばしば新しいタスクに調整され、進行中のデータストリームから学び続ける。
このようなシーケンシャルなトレーニングでは、新しい情報と過去の情報を統合する必要がある。
伝統的に、これらのコアセットは画像や文などの全サンプルで構成されている。
しかし、最近のトランスフォーマーアーキテクチャはトークンで動作しており、画像が16x16ワードの価値があるという有名な主張につながっている。
直感的には、これらのトークンはすべて等しく情報的または記憶的であるわけではない。
コアセットを超えて、トークンのレベルに基づいてより深いレベルのデータサマリを構築することを提案する。
それぞれのコアトークンセットは、最も情報性の高いデータポイントを選択し、機能属性を活用して、最も関連性の高い機能のみを格納します。
コアトークンセットは、インクリメンタルな画像分類、オープンな視覚的質問応答、そしてメモリを著しく削減した連続的な画像キャプションにおいて、大幅な性能維持をもたらすことを示す。
実際、我々は、データの1\%のコアトークンセットが少なくとも2倍、最大10倍のコアセットに対して可逆的に実行されることを実証的に見出した。
関連論文リスト
- Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation [7.659816122873334]
言語処理では、変換器は圧縮されたテキストから大いに恩恵を受ける。
これは、平易な文字の代わりに単語の断片をキャプチャするより大きな語彙によって達成される。
私たちの仕事はByte Pairの導入によって視覚データのトークン化を改善します。
1次元から複数の次元へ。
論文 参考訳(メタデータ) (2024-11-15T15:36:48Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - A Contrastive Distillation Approach for Incremental Semantic
Segmentation in Aerial Images [15.75291664088815]
現在のディープニューラルアーキテクチャに関する大きな問題は、破滅的な忘れこととして知られている。
我々は、任意の入力を拡張バージョンと比較する、対照的な正則化を提案する。
私たちは、Potsdamデータセットにおけるソリューションの有効性を示し、各テストにおけるインクリメンタルベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-12-07T16:44:45Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - A Few Guidelines for Incremental Few-Shot Segmentation [57.34237650765928]
事前訓練されたセグメンテーションモデルと、新しいクラスを含む画像が少ないことを前提として、我々が目指すのは、以前に見たセグメンテーション能力を維持しながら、新しいクラスをセグメンテーションすることである。
このシナリオにおけるエンド・ツー・エンドのトレーニングの主な問題はどのようなものかを示します。
一 バッチ正規化統計を、バッチ正規化で修正できる新しいクラスへ向けての漂流すること。
二 旧クラスの忘れ物 正規化戦略で解決できるもの。
論文 参考訳(メタデータ) (2020-11-30T20:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。