論文の概要: Token Boosting for Robust Self-Supervised Visual Transformer
Pre-training
- arxiv url: http://arxiv.org/abs/2304.04175v2
- Date: Wed, 12 Apr 2023 04:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 11:03:37.520520
- Title: Token Boosting for Robust Self-Supervised Visual Transformer
Pre-training
- Title(参考訳): ロバスト自己教師付き視覚トランスプレトレーニングのためのトークンブースティング
- Authors: Tianjiao Li, Lin Geng Foo, Ping Hu, Xindi Shang, Hossein Rahmani,
Zehuan Yuan, Jun Liu
- Abstract要約: Token Boosting Module (TBM) は、Visual Transformers (VT) 用のプラグイン・アンド・プレイコンポーネントである。
我々は,VTのプラグアンドプレイコンポーネントとしてTBMを導入し,マスク付きオートエンコーディング事前学習において,VTがクリーンでロバストな特徴の抽出を効果的に学べるようにした。
我々はTBMの有効性を分析するための広範囲な実験を行い、4つの破損したデータセットの結果から、TBMは下流タスクの性能を継続的に改善することを示した。
- 参考スコア(独自算出の注目度): 29.177761902566107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning with large-scale unlabeled data has become a powerful tool for
pre-training Visual Transformers (VTs). However, prior works tend to overlook
that, in real-world scenarios, the input data may be corrupted and unreliable.
Pre-training VTs on such corrupted data can be challenging, especially when we
pre-train via the masked autoencoding approach, where both the inputs and
masked ``ground truth" targets can potentially be unreliable in this case. To
address this limitation, we introduce the Token Boosting Module (TBM) as a
plug-and-play component for VTs that effectively allows the VT to learn to
extract clean and robust features during masked autoencoding pre-training. We
provide theoretical analysis to show how TBM improves model pre-training with
more robust and generalizable representations, thus benefiting downstream
tasks. We conduct extensive experiments to analyze TBM's effectiveness, and
results on four corrupted datasets demonstrate that TBM consistently improves
performance on downstream tasks.
- Abstract(参考訳): 大規模なラベルなしデータによる学習は、Visual Transformer(VT)を事前学習するための強力なツールとなっている。
しかし、事前の作業は、現実世界のシナリオでは、入力データが破損し、信頼性が低いことを見落としてしまう傾向がある。
このような破損したデータに対する事前トレーニングVTは、特に、入力とマスクされた『地下真実』ターゲットの両方が信頼できないような、マスク付き自動符号化アプローチによる事前トレーニングを行う場合、難しい。
この制限に対処するため、VTのプラグイン・アンド・プレイコンポーネントとしてToken Boosting Module (TBM)を導入し、マスク付きオートエンコーディング事前学習中にVTがクリーンでロバストな特徴を抽出できるようにする。
我々は,TBMがより堅牢で一般化可能な表現でモデル事前学習をどのように改善し,下流タスクの恩恵を受けるかを示す理論的解析を行う。
我々はTBMの有効性を分析するための広範囲な実験を行い、4つの破損したデータセットの結果、TBMは下流タスクの性能を継続的に改善することを示した。
関連論文リスト
- Delayed Bottlenecking: Alleviating Forgetting in Pre-trained Graph Neural Networks [19.941727879841142]
本稿では,新しいアンダーラインDelayed UnderlineBottlenecking UnderlinePre-trainingフレームワークを提案する。
トレーニング前の段階では、潜在表現とトレーニングデータの間の可能な限りの相互情報を保持する。
論文 参考訳(メタデータ) (2024-04-23T11:35:35Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - A Closer Look at Self-Supervised Lightweight Vision Transformers [44.44888945683147]
大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法のベンチマークを行った。
バニラ・ライトウェイトなViTでさえ、デリケートなアーキテクチャ設計を持つ以前のSOTAネットワークに匹敵する性能を示している。
論文 参考訳(メタデータ) (2022-05-28T14:14:57Z) - Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training [55.43088293183165]
近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。
本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。
我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
論文 参考訳(メタデータ) (2022-04-24T08:42:47Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - Enjoy the Salience: Towards Better Transformer-based Faithful
Explanations with Word Salience [9.147707153504117]
本研究では,TextRankを用いて抽出した有能な情報に近づき,訓練中に多頭部注意機構を誘導する補助的損失関数を提案する。
5つのデータセットにわたる説明の忠実性の実験は、SaLossでトレーニングされたモデルが一貫してより忠実な説明を提供することを示している。
さらに、下流タスクにおいて、後者がより高い予測性能をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-31T11:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。