論文の概要: Masked Jigsaw Puzzle: A Versatile Position Embedding for Vision
Transformers
- arxiv url: http://arxiv.org/abs/2205.12551v3
- Date: Fri, 26 May 2023 07:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 00:16:38.055193
- Title: Masked Jigsaw Puzzle: A Versatile Position Embedding for Vision
Transformers
- Title(参考訳): Masked Jigsaw Puzzle: ビジョントランスフォーマーのためのVersatile Position Embeddding
- Authors: Bin Ren, Yahui Liu, Yue Song, Wei Bi, Rita Cucchiara, Nicu Sebe, Wei
Wang
- Abstract要約: 位置埋め込み(PE)は多くの視覚タスクにおいて視覚変換器(ViT)の性能を向上させることが示されている。
PEは、入力パッチの空間情報が露出しているため、プライバシー漏洩のリスクが高い可能性がある。
これらの問題に対処するために,Masked Jigsaw Puzzle (MJP) 位置埋め込み法を提案する。
- 参考スコア(独自算出の注目度): 87.0319004283766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Position Embeddings (PEs), an arguably indispensable component in Vision
Transformers (ViTs), have been shown to improve the performance of ViTs on many
vision tasks. However, PEs have a potentially high risk of privacy leakage
since the spatial information of the input patches is exposed. This caveat
naturally raises a series of interesting questions about the impact of PEs on
the accuracy, privacy, prediction consistency, etc. To tackle these issues, we
propose a Masked Jigsaw Puzzle (MJP) position embedding method. In particular,
MJP first shuffles the selected patches via our block-wise random jigsaw puzzle
shuffle algorithm, and their corresponding PEs are occluded. Meanwhile, for the
non-occluded patches, the PEs remain the original ones but their spatial
relation is strengthened via our dense absolute localization regressor. The
experimental results reveal that 1) PEs explicitly encode the 2D spatial
relationship and lead to severe privacy leakage problems under gradient
inversion attack; 2) Training ViTs with the naively shuffled patches can
alleviate the problem, but it harms the accuracy; 3) Under a certain shuffle
ratio, the proposed MJP not only boosts the performance and robustness on
large-scale datasets (i.e., ImageNet-1K and ImageNet-C, -A/O) but also improves
the privacy preservation ability under typical gradient attacks by a large
margin. The source code and trained models are available
at~\url{https://github.com/yhlleo/MJP}.
- Abstract(参考訳): 位置埋め込み (PE) は視覚変換器 (ViT) において必然的に必須の要素であり、多くの視覚タスクにおけるViTの性能を向上させることが示されている。
しかし、PEは入力パッチの空間情報が露出しているため、プライバシー漏洩のリスクが高い可能性がある。
この注意事項は、peが正確性、プライバシ、予測一貫性などに与える影響に関する興味深い質問を自然に生み出す。
これらの問題に対処するために,Masked Jigsaw Puzzle (MJP) 位置埋め込み法を提案する。
特に,MJPはブロックワイドランダムジグソーパズルシャッフルアルゴリズムを用いて,選択したパッチをシャッフルし,対応するPEを隠蔽する。
一方、非閉塞パッチでは、PEは元のパッチのままであるが、その空間的関係は我々の密集した絶対局在回帰器によって強化されている。
実験の結果は
1)PEは,2次元空間関係を明示的に符号化し,勾配反転攻撃時のプライバシー漏洩問題を引き起こす。
2) 無効にシャッフルされたパッチによるvitのトレーニングは、問題を緩和するが、精度は損なわれる。
3) あるシャッフル比の下では,提案したMJPは大規模データセット(ImageNet-1K, ImageNet-C, -A/O)の性能と堅牢性を向上するだけでなく,通常のグラデーション攻撃によるプライバシー保護能力を大きなマージンで向上させる。
ソースコードとトレーニングされたモデルは、~\url{https://github.com/yhlleo/MJP}で入手できる。
関連論文リスト
- Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - AdPE: Adversarial Positional Embeddings for Pretraining Vision
Transformers via MAE+ [44.856035786948915]
本稿では,前訓練型視覚変換器に対するAdPE (Adversarial Positional Embedding) アプローチを提案する。
AdPEは位置エンコーディングを摂動することで局所的な視覚構造を歪ませる。
実験により,本手法はMAEの微調整精度を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-03-14T02:42:01Z) - PMP: Privacy-Aware Matrix Profile against Sensitive Pattern Inference
for Time Series [12.855499575586753]
本稿では,長文パターンに対する悪質な推論の防止という,新たなプライバシ保護問題を提案する。
マトリックスプロファイル(MP)は具体的な形状の漏洩を防止できるが,MPインデックスの正準相関はなおも感度の高い長パターンの位置を明らかにすることができる。
局所相関を摂動し,MPインデックスベクトルの正準相関を破るPMP(Privacy-Aware Matrix Profile)を提案する。
論文 参考訳(メタデータ) (2023-01-04T22:11:38Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Reduce Information Loss in Transformers for Pluralistic Image Inpainting [112.50657646357494]
入力情報を可能な限り保持するための新しいトランスフォーマーベースのフレームワーク"PUT"を提案する。
PUTは、特に大きなマスキング領域と複雑な大規模データセットにおいて、画像の忠実性に関する最先端の手法を大幅に上回る。
論文 参考訳(メタデータ) (2022-05-10T17:59:58Z) - ViTransPAD: Video Transformer using convolution and self-attention for
Face Presentation Attack Detection [15.70621878093133]
顔の提示攻撃検出(PAD)は,顔の生体認証システムに対するスプーフ攻撃を防ぐ重要な手段である。
PADに対する畳み込みニューラルネットワーク(CNN)に基づく多くの研究は、文脈を考慮せずに画像レベルのバイナリタスクとして問題を定式化している。
本研究では,フレーム内の短距離の局所的細部のみに焦点をあてるだけでなく,フレーム上の長距離依存性をキャプチャできる映像ベースの顔PAD(ViTransPAD)を提案する。
論文 参考訳(メタデータ) (2022-03-03T08:23:20Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。