論文の概要: GTA: Guided Transfer of Spatial Attention from Object-Centric
Representations
- arxiv url: http://arxiv.org/abs/2401.02656v1
- Date: Fri, 5 Jan 2024 06:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:56:26.415657
- Title: GTA: Guided Transfer of Spatial Attention from Object-Centric
Representations
- Title(参考訳): GTA:オブジェクト中心表現からの空間的注意のガイド伝達
- Authors: SeokHyun Seo, Jinwoo Hong, JungWoo Chae, Kyungyul Kim, Sangheum Hwang
- Abstract要約: 空間的注意の誘導伝達 (GTA) と呼ばれる, 新規かつ簡易な ViT 正規化手法を提案する。
実験結果から,提案したGTAは,トレーニングデータが少ない場合,特に5つのベンチマークデータセットの精度を一貫して向上することが示された。
- 参考スコア(独自算出の注目度): 3.187381965457262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utilizing well-trained representations in transfer learning often results in
superior performance and faster convergence compared to training from scratch.
However, even if such good representations are transferred, a model can easily
overfit the limited training dataset and lose the valuable properties of the
transferred representations. This phenomenon is more severe in ViT due to its
low inductive bias. Through experimental analysis using attention maps in ViT,
we observe that the rich representations deteriorate when trained on a small
dataset. Motivated by this finding, we propose a novel and simple
regularization method for ViT called Guided Transfer of spatial Attention
(GTA). Our proposed method regularizes the self-attention maps between the
source and target models. A target model can fully exploit the knowledge
related to object localization properties through this explicit regularization.
Our experimental results show that the proposed GTA consistently improves the
accuracy across five benchmark datasets especially when the number of training
data is small.
- Abstract(参考訳): 転写学習においてよく訓練された表現を用いることで、スクラッチからのトレーニングに比べてパフォーマンスと収束性が向上する。
しかし、たとえそのような優れた表現が転送されたとしても、モデルは限られたトレーニングデータセットに簡単に適合し、転送された表現の貴重な特性を失うことができる。
この現象は、誘導バイアスが低いため、ViTではより深刻である。
vitにおけるアテンションマップを用いた実験解析により,小さなデータセットでトレーニングすると,リッチ表現が劣化することを確認した。
そこで本研究では,空間的注意のガイド伝達 (GTA) と呼ばれる,新規かつ簡易な ViT 正規化手法を提案する。
提案手法は,ソースモデルとターゲットモデル間の自己アテンションマップを定式化する。
対象モデルは、この明示的な正規化を通じて、オブジェクトのローカライゼーション特性に関する知識を完全に活用することができる。
実験結果から,提案したGTAは,トレーニングデータが少ない場合の5つのベンチマークデータセットの精度を常に向上することがわかった。
関連論文リスト
- Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - Teacher Guided Training: An Efficient Framework for Knowledge Transfer [86.6784627427194]
高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。
TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。
TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
論文 参考訳(メタデータ) (2022-08-14T10:33:58Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - Understanding new tasks through the lens of training data via
exponential tilting [43.33775132139584]
対象タスクの分布を把握するために,トレーニングサンプルを再検討する問題を考察する。
指数的傾き仮定に基づいて分布シフトモデルを定式化し、列車データ重み付けを学習する。
学習したトレインデータの重み付けは、目標のパフォーマンス評価、微調整、モデル選択といった下流タスクに使用できる。
論文 参考訳(メタデータ) (2022-05-26T18:38:43Z) - PreTraM: Self-Supervised Pre-training via Connecting Trajectory and Map [58.53373202647576]
軌道予測のための自己教師付き事前学習方式であるPreTraMを提案する。
1) トラジェクティブ・マップ・コントラクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)の2つのパートから構成される。
AgentFormerやTrajectron++といった一般的なベースラインに加えて、PreTraMは、挑戦的なnuScenesデータセット上で、FDE-10でパフォーマンスを5.5%と6.9%向上させる。
論文 参考訳(メタデータ) (2022-04-21T23:01:21Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。
本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。
GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文 参考訳(メタデータ) (2020-06-11T16:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。