論文の概要: Spatial Entropy Regularization for Vision Transformers
- arxiv url: http://arxiv.org/abs/2206.04636v1
- Date: Thu, 9 Jun 2022 17:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:27:50.877895
- Title: Spatial Entropy Regularization for Vision Transformers
- Title(参考訳): 視覚変換器の空間エントロピー正規化
- Authors: Elia Peruzzo, Enver Sangineto, Yahui Liu, Marco De Nadai, Wei Bi,
Bruno Lepri and Nicu Sebe
- Abstract要約: 視覚変換器(VT)は、訓練が監督されたときに自然に出現しない意味的セグメンテーション構造を含むことができる。
本稿では,情報エントロピーの空間的定式化に基づくVT正規化手法を提案する。
提案手法は,異なるトレーニングシナリオ,データセット,下流タスク,VTアーキテクチャに対して有効であることを示す。
- 参考スコア(独自算出の注目度): 71.44392961125807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that the attention maps of Vision Transformers (VTs),
when trained with self-supervision, can contain a semantic segmentation
structure which does not spontaneously emerge when training is supervised. In
this paper, we explicitly encourage the emergence of this spatial clustering as
a form of training regularization, this way including a self-supervised pretext
task into the standard supervised learning. In more detail, we propose a VT
regularization method based on a spatial formulation of the information
entropy. By minimizing the proposed spatial entropy, we explicitly ask the VT
to produce spatially ordered attention maps, this way including an object-based
prior during training. Using extensive experiments, we show that the proposed
regularization approach is beneficial with different training scenarios,
datasets, downstream tasks and VT architectures. The code will be available
upon acceptance.
- Abstract(参考訳): 近年の研究では、視覚トランスフォーマー(vts)の注意マップは、自己スーパービジョンで訓練すると、トレーニングが監督されたときに自然発生しないセマンティックセグメンテーション構造を含むことができることが示されている。
本稿では,この空間クラスタリングの出現をトレーニング正規化の一形態として,自己教師付きプレテキストタスクを標準教師付き学習に含めることを強く推奨する。
具体的には,情報エントロピーの空間的定式化に基づくvt正則化法を提案する。
提案する空間エントロピーを最小化することにより, vt に対して, トレーニング中にオブジェクトベースの事前情報を含む空間的に順序付けられたアテンションマップの作成を明示的に依頼する。
広範な実験を用いて,提案手法が異なるトレーニングシナリオ,データセット,ダウンストリームタスク,vtアーキテクチャにおいて有効であることを示す。
コードは受理後利用可能になる。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - PEARL: Parallelized Expert-Assisted Reinforcement Learning for Scene
Rearrangement Planning [28.9887381071402]
SRP(Scene Rearrangement Planning)のための細かいアクション定義を提案し、大規模なシーン再配置データセットを導入する。
また,事前知識を必要とせず,自己演奏を通してエージェントを効果的に訓練するための新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-05-10T03:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。