論文の概要: Core Tokensets for Data-efficient Sequential Training of Transformers
- arxiv url: http://arxiv.org/abs/2410.05800v1
- Date: Tue, 08 Oct 2024 08:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:36:28.296045
- Title: Core Tokensets for Data-efficient Sequential Training of Transformers
- Title(参考訳): 変圧器のデータ効率向上のためのコアトークンセット
- Authors: Subarnaduti Paul, Manuel Brack, Patrick Schramowski, Kristian Kersting, Martin Mundt,
- Abstract要約: ディープネットワークはしばしば新しいタスクに調整され、進行中のデータストリームから学び続ける。
伝統的に、これらのコアセットは画像や文などの全サンプルで構成されている。
最近のトランスフォーマーアーキテクチャはトークンで動作しており、画像が16x16ワードの価値があるという有名な主張につながっている。
- 参考スコア(独自算出の注目度): 28.15517815625402
- License:
- Abstract: Deep networks are frequently tuned to novel tasks and continue learning from ongoing data streams. Such sequential training requires consolidation of new and past information, a challenge predominantly addressed by retaining the most important data points - formally known as coresets. Traditionally, these coresets consist of entire samples, such as images or sentences. However, recent transformer architectures operate on tokens, leading to the famous assertion that an image is worth 16x16 words. Intuitively, not all of these tokens are equally informative or memorable. Going beyond coresets, we thus propose to construct a deeper-level data summary on the level of tokens. Our respectively named core tokensets both select the most informative data points and leverage feature attribution to store only their most relevant features. We demonstrate that core tokensets yield significant performance retention in incremental image classification, open-ended visual question answering, and continual image captioning with significantly reduced memory. In fact, we empirically find that a core tokenset of 1\% of the data performs comparably to at least a twice as large and up to 10 times larger coreset.
- Abstract(参考訳): ディープネットワークはしばしば新しいタスクに調整され、進行中のデータストリームから学び続ける。
このようなシーケンシャルなトレーニングでは、新しい情報と過去の情報を統合する必要がある。
伝統的に、これらのコアセットは画像や文などの全サンプルで構成されている。
しかし、最近のトランスフォーマーアーキテクチャはトークンで動作しており、画像が16x16ワードの価値があるという有名な主張につながっている。
直感的には、これらのトークンはすべて等しく情報的または記憶的であるわけではない。
コアセットを超えて、トークンのレベルに基づいてより深いレベルのデータサマリを構築することを提案する。
それぞれのコアトークンセットは、最も情報性の高いデータポイントを選択し、機能属性を活用して、最も関連性の高い機能のみを格納します。
コアトークンセットは、インクリメンタルな画像分類、オープンな視覚的質問応答、そしてメモリを著しく削減した連続的な画像キャプションにおいて、大幅な性能維持をもたらすことを示す。
実際、我々は、データの1\%のコアトークンセットが少なくとも2倍、最大10倍のコアセットに対して可逆的に実行されることを実証的に見出した。
関連論文リスト
- ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - A Contrastive Distillation Approach for Incremental Semantic
Segmentation in Aerial Images [15.75291664088815]
現在のディープニューラルアーキテクチャに関する大きな問題は、破滅的な忘れこととして知られている。
我々は、任意の入力を拡張バージョンと比較する、対照的な正則化を提案する。
私たちは、Potsdamデータセットにおけるソリューションの有効性を示し、各テストにおけるインクリメンタルベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-12-07T16:44:45Z) - InfoSeg: Unsupervised Semantic Image Segmentation with Mutual
Information Maximization [0.0]
局所的特徴と大域的高レベル特徴の相互情報に基づく教師なし画像表現の新しい手法を提案する。
最初のステップでは、ローカル機能とグローバル機能に基づいて、イメージをセグメント化する。
第2のステップでは,各クラスの局所的特徴と高次特徴との相互関係を最大化する。
論文 参考訳(メタデータ) (2021-10-07T14:01:42Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - A Few Guidelines for Incremental Few-Shot Segmentation [57.34237650765928]
事前訓練されたセグメンテーションモデルと、新しいクラスを含む画像が少ないことを前提として、我々が目指すのは、以前に見たセグメンテーション能力を維持しながら、新しいクラスをセグメンテーションすることである。
このシナリオにおけるエンド・ツー・エンドのトレーニングの主な問題はどのようなものかを示します。
一 バッチ正規化統計を、バッチ正規化で修正できる新しいクラスへ向けての漂流すること。
二 旧クラスの忘れ物 正規化戦略で解決できるもの。
論文 参考訳(メタデータ) (2020-11-30T20:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。