論文の概要: Stochastic Layers in Vision Transformers
- arxiv url: http://arxiv.org/abs/2112.15111v1
- Date: Thu, 30 Dec 2021 16:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 14:45:18.060702
- Title: Stochastic Layers in Vision Transformers
- Title(参考訳): 視覚トランスフォーマーの確率的層
- Authors: Nikola Popovic, Danda Pani Paudel, Thomas Probst, Luc Van Gool
- Abstract要約: 視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
- 参考スコア(独自算出の注目度): 85.38733795180497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce fully stochastic layers in vision transformers, without causing
any severe drop in performance. The additional stochasticity boosts the
robustness of visual features and strengthens privacy. In this process, linear
layers with fully stochastic parameters are used, both during training and
inference, to transform the feature activations of each multilayer perceptron.
Such stochastic linear operations preserve the topological structure, formed by
the set of tokens passing through the shared multilayer perceptron. This
operation encourages the learning of the recognition task to rely on the
topological structures of the tokens, instead of their values, which in turn
offers the desired robustness and privacy of the visual features. In this
paper, we use our features for three different applications, namely,
adversarial robustness, network calibration, and feature privacy. Our features
offer exciting results on those tasks. Furthermore, we showcase an experimental
setup for federated and transfer learning, where the vision transformers with
stochastic layers are again shown to be well behaved. Our source code will be
made publicly available.
- Abstract(参考訳): 視覚変換器に完全に確率的な層を導入するが、性能は著しく低下しない。
この追加の確率性は、視覚機能の堅牢性を高め、プライバシーを強化する。
このプロセスでは、トレーニングと推論の両方において、完全確率的パラメータを持つ線形層を使用して、各多層パーセプトロンの特徴活性化を変換する。
このような確率線形演算は、共有多層パーセプトロンを通過するトークンの集合によって形成される位相構造を保存する。
この操作は、認識タスクの学習を、その値の代わりにトークンのトポロジー構造に依存するように促し、その結果、視覚特徴の所望の堅牢性とプライバシを提供する。
本稿では,我々の機能を3つの異なるアプリケーション,すなわち,逆ロバスト性,ネットワークキャリブレーション,機能プライバシに活用する。
私たちの機能はこれらのタスクにエキサイティングな結果をもたらします。
さらに,確率層を有する視覚変換器の動作が良好であることを示す,フェデレーション・トランスファー学習のための実験装置についても紹介する。
私たちのソースコードは公開されます。
関連論文リスト
- Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference [5.711221299998126]
Persona-Gestorは、高度にパーソナライズされた3Dフルボディジェスチャーを生成するように設計された、新しいエンドツーエンド生成モデルである。
このモデルはファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)変換器拡散アーキテクチャを組み合わせたものである。
Persona-Gestorはシステムのユーザビリティと一般化機能を改善する。
論文 参考訳(メタデータ) (2024-03-16T04:40:10Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Generative Adversarial Transformers [13.633811200719627]
本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。
ネットワークは、線形効率の計算を維持しながら、画像間の長距離相互作用を可能にする二部構造を用いる。
高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。