論文の概要: Domain Adaptation for Efficiently Fine-tuning Vision Transformer with
Encrypted Images
- arxiv url: http://arxiv.org/abs/2309.02556v2
- Date: Thu, 7 Sep 2023 01:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 15:50:48.096879
- Title: Domain Adaptation for Efficiently Fine-tuning Vision Transformer with
Encrypted Images
- Title(参考訳): 暗号化画像を用いた高速微調整型視覚変換器のドメイン適応
- Authors: Teru Nagamori, Sayaka Shiota, Hitoshi Kiya
- Abstract要約: 視覚変換器(ViT)を用いた変換画像を用いたファインチューニングモデルを提案する。
提案した領域適応法はモデルの劣化精度を損なわず,ViTの埋め込み構造に基づいて実施する。
実験では,CIFAR-10とCIFAR-100データセットを用いた暗号化画像を用いても,精度の低下を防止できることを確認した。
- 参考スコア(独自算出の注目度): 6.476298483207895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, deep neural networks (DNNs) trained with transformed data
have been applied to various applications such as privacy-preserving learning,
access control, and adversarial defenses. However, the use of transformed data
decreases the performance of models. Accordingly, in this paper, we propose a
novel method for fine-tuning models with transformed images under the use of
the vision transformer (ViT). The proposed domain adaptation method does not
cause the accuracy degradation of models, and it is carried out on the basis of
the embedding structure of ViT. In experiments, we confirmed that the proposed
method prevents accuracy degradation even when using encrypted images with the
CIFAR-10 and CIFAR-100 datasets.
- Abstract(参考訳): 近年、データ変換でトレーニングされたディープニューラルネットワーク(DNN)は、プライバシ保護学習、アクセス制御、敵防衛など、さまざまなアプリケーションに適用されている。
しかし、変換データの使用はモデルの性能を低下させる。
そこで本稿では,視覚トランスフォーマ (vit) を用いて,変換画像を持つモデルの微調整を行う新しい手法を提案する。
提案手法は,vitの埋め込み構造に基づいて,モデルの精度を低下させるものではない。
実験では,CIFAR-10とCIFAR-100データセットを用いた暗号化画像を用いても,精度の低下を防止できることを確認した。
関連論文リスト
- Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Efficient Fine-Tuning with Domain Adaptation for Privacy-Preserving
Vision Transformer [6.476298483207895]
視覚変換器(ViT)を用いたプライバシー保護型ディープニューラルネットワーク(DNN)の新しい手法を提案する。
本手法では, モデルトレーニングや視覚的に保護された画像によるテストだけでなく, 暗号化画像の使用による性能劣化を回避できる。
ドメイン適応法は、暗号化された画像でViTを効率よく微調整するために用いられる。
論文 参考訳(メタデータ) (2024-01-10T12:46:31Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Robustcaps: a transformation-robust capsule network for image
classification [6.445605125467574]
本稿では, 変換ロバスト性の望ましい特性を示すディープニューラルネットワークモデルを提案する。
我々のモデルはRobostCapsと呼ばれ、改良されたカプセルネットワークモデルでグループ同変畳み込みを使用する。
CIFAR-10、FashionMNIST、CIFAR-100データセットの最先端の精度を実現している。
論文 参考訳(メタデータ) (2022-10-20T08:42:33Z) - Image and Model Transformation with Secret Key for Vision Transformer [16.055655429920993]
普通の画像で訓練されたモデルを直接、暗号化された画像で訓練されたモデルに変換することができることを示す。
変換されたモデルの性能は、キーで暗号化されたテスト画像を使用する場合、平易なイメージで訓練されたモデルと同じである。
論文 参考訳(メタデータ) (2022-07-12T08:02:47Z) - Adaptive Transformers for Robust Few-shot Cross-domain Face
Anti-spoofing [71.06718651013965]
我々は、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。
私たちはVTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。
いくつかのベンチマークデータセットの実験では、提案されたモデルが堅牢かつ競合的なパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2022-03-23T03:37:44Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Investigating the Vision Transformer Model for Image Retrieval Tasks [1.375062426766416]
本稿では,事前に準備することなく画像検索タスクに効果的に適用できるプラグイン・アンド・プレイディスクリプタを提案する。
提案手法は,パラメータ調整のためのトレーニングデータを必要としないが,最近提案されたビジョントランスフォーマネットワークを利用する。
画像検索タスクにおいて、グローバルデリプタとローカルデリプタの使用は、過去数年間にわたって、畳み込みニューラルネットワーク(cnn)ベースの手法によって非常にうまく置き換えられてきた。
論文 参考訳(メタデータ) (2021-01-11T08:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。