論文の概要: DropPos: Pre-Training Vision Transformers by Reconstructing Dropped
Positions
- arxiv url: http://arxiv.org/abs/2309.03576v2
- Date: Fri, 22 Sep 2023 00:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 17:56:00.386898
- Title: DropPos: Pre-Training Vision Transformers by Reconstructing Dropped
Positions
- Title(参考訳): DropPos:ドロップ位置の再構成による事前学習型ビジョントランス
- Authors: Haochen Wang, Junsong Fan, Yuxi Wang, Kaiyou Song, Tong Wang,
Zhaoxiang Zhang
- Abstract要約: DropPosは、Dropped Positionsを再構築するために設計された新しいプレテキストタスクである。
コードはhttps://github.com/Haochen-Wang409/DropPos.comで公開されている。
- 参考スコア(独自算出の注目度): 63.61970125369834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As it is empirically observed that Vision Transformers (ViTs) are quite
insensitive to the order of input tokens, the need for an appropriate
self-supervised pretext task that enhances the location awareness of ViTs is
becoming evident. To address this, we present DropPos, a novel pretext task
designed to reconstruct Dropped Positions. The formulation of DropPos is
simple: we first drop a large random subset of positional embeddings and then
the model classifies the actual position for each non-overlapping patch among
all possible positions solely based on their visual appearance. To avoid
trivial solutions, we increase the difficulty of this task by keeping only a
subset of patches visible. Additionally, considering there may be different
patches with similar visual appearances, we propose position smoothing and
attentive reconstruction strategies to relax this classification problem, since
it is not necessary to reconstruct their exact positions in these cases.
Empirical evaluations of DropPos show strong capabilities. DropPos outperforms
supervised pre-training and achieves competitive results compared with
state-of-the-art self-supervised alternatives on a wide range of downstream
benchmarks. This suggests that explicitly encouraging spatial reasoning
abilities, as DropPos does, indeed contributes to the improved location
awareness of ViTs. The code is publicly available at
https://github.com/Haochen-Wang409/DropPos.
- Abstract(参考訳): 視覚変換器(ViT)は入力トークンの順序に非常に敏感であることが実証的に観察されているため、ViTの位置認識を高めるための適切な自己教師型プレテキストタスクの必要性が顕在化しつつある。
そこで我々は,Dropped Positionsを再構築するための新しいプレテキストタスクDropPosを紹介する。
dropposの定式化は単純で、まず位置埋め込みの大きなランダムなサブセットをドロップし、その後、モデルは、その視覚的な外観のみに基づいて、重複しないパッチごとに実際の位置を分類する。
簡単な解決策を避けるために、パッチのサブセットだけを見えるようにすることで、このタスクの難しさを高めます。
また、類似した視覚的外観を持つパッチが存在する可能性があることから、このような分類問題を緩和するための位置平滑化および注意深い再構築戦略を提案する。
DropPosの実証評価は強力な能力を示している。
DropPosは教師付き事前トレーニングより優れており、幅広いダウンストリームベンチマークにおける最先端のセルフ教師付き代替手段と比較して、競争力がある。
これは、DropPosがしているように、空間的推論能力を明確に奨励することが、ViTsの位置認識の向上に寄与していることを示唆している。
コードはhttps://github.com/haochen-wang409/dropposで公開されている。
関連論文リスト
- Activating Self-Attention for Multi-Scene Absolute Pose Regression [21.164101507575186]
マルチシーン絶対ポーズ回帰は、高速でメモリ効率のよいカメラポーズ推定の需要に対処する。
変圧器エンコーダは、崩壊した自己アテンションマップのために未利用である。
クエリとキーをアライメントし、クエリキー空間の歪みを防止できる補助的損失を示す。
論文 参考訳(メタデータ) (2024-11-03T06:00:36Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - LoCUS: Learning Multiscale 3D-consistent Features from Posed Images [18.648772607057175]
我々は、監督なしに多目的な神経表現を訓練する。
検索セットを慎重に構築することで、検索と再利用のバランスをとることができる。
スパース,マルチスケール,セマンティック空間マップの作成結果を示す。
論文 参考訳(メタデータ) (2023-10-02T11:11:23Z) - A Frustratingly Easy Improvement for Position Embeddings via Random
Padding [68.75670223005716]
本稿では,既存の事前学習型言語モデルを変更することなく,シンプルかつ効果的なランダムパディング手法を提案する。
実験により、ランダムパディングは、応答が後位置にあるインスタンスのモデル性能を著しく改善できることが示された。
論文 参考訳(メタデータ) (2023-05-08T17:08:14Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - DropKey [9.846606347586906]
視覚変換器の自己注意層におけるドロップアウト手法の解析と改善に焦点をあてる。
我々は,注目行列計算よりも先にドロップアウト操作を移動させ,キーをドロップアウト単位として設定することを提案する。
提案したスケジュールは,低レベルの機能や高レベルのセマンティクスに欠けるオーバーフィッティングを回避することができる。
論文 参考訳(メタデータ) (2022-08-04T13:24:04Z) - SHAPE: Shifted Absolute Position Embedding for Transformers [59.03597635990196]
既存の位置表現は、目に見えない長さや計算コストの高いデータをテストする一般化の欠如に悩まされる。
両問題に対処するため,シフト絶対位置埋め込み(SHAPE)について検討した。
論文 参考訳(メタデータ) (2021-09-13T00:10:02Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。