論文の概要: Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations
- arxiv url: http://arxiv.org/abs/2201.12961v1
- Date: Mon, 31 Jan 2022 02:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 02:10:52.382847
- Title: Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations
- Title(参考訳): プラグインインバージョン:データ拡張を伴う視覚のモデル非依存インバージョン
- Authors: Amin Ghiasi, Hamid Kazemi, Steven Reich, Chen Zhu, Micah Goldblum, Tom
Goldstein
- Abstract要約: 単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
- 参考スコア(独自算出の注目度): 61.95114821573875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing techniques for model inversion typically rely on hard-to-tune
regularizers, such as total variation or feature regularization, which must be
individually calibrated for each network in order to produce adequate images.
In this work, we introduce Plug-In Inversion, which relies on a simple set of
augmentations and does not require excessive hyper-parameter tuning. Under our
proposed augmentation-based scheme, the same set of augmentation
hyper-parameters can be used for inverting a wide range of image classification
models, regardless of input dimensions or the architecture. We illustrate the
practicality of our approach by inverting Vision Transformers (ViTs) and
Multi-Layer Perceptrons (MLPs) trained on the ImageNet dataset, tasks which to
the best of our knowledge have not been successfully accomplished by any
previous works.
- Abstract(参考訳): モデルインバージョンのための既存の技術は、十分な画像を生成するために各ネットワークで個別に調整されなければならない全変動や特徴正規化のような、チューン・トゥ・チューン・レギュラライザに依存する。
本稿では,単純な拡張セットに依存し,過度なハイパーパラメータチューニングを必要としないPlug-In Inversionを提案する。
提案手法では,入力次元やアーキテクチャに関わらず,様々な画像分類モデルの逆変換に,同じ拡張ハイパーパラメータの集合を用いることができる。
我々は、ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより、我々のアプローチの実践性を説明する。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - TiC: Exploring Vision Transformer in Convolution [37.50285921899263]
マルチヘッド・セルフアテンション・コンボリューション(MSA-Conv)を提案する。
MSA-Convは、標準、拡張された、深みのあるものを含む一般的な畳み込みの中に自己認識を組み込んでいる。
本稿では,MSA-Convを用いた画像分類の概念実証として,TiC(Vision Transformer in Convolution)を提案する。
論文 参考訳(メタデータ) (2023-10-06T10:16:26Z) - A Contrastive Learning Scheme with Transformer Innate Patches [4.588028371034407]
本稿では,Transformer固有のパッチを用いたコントラスト学習方式であるContrastive Transformerを提案する。
このスキームは、教師付きパッチレベルのコントラスト学習を行い、地上の真理マスクに基づいてパッチを選択する。
このスキームはすべての視覚変換器アーキテクチャに適用され、実装が容易で、最小限のメモリフットプリントを導入している。
論文 参考訳(メタデータ) (2023-03-26T20:19:28Z) - A Simple Plugin for Transforming Images to Arbitrary Scales [47.36233857830832]
我々は、既存の超解像モデルに挿入できる汎用プラグインを開発し、Arbitrary Resolution Image Scalingに向けた能力を便利に増強する。
得られたモデルは、固定スケールファクタ上での本来の性能を維持できるだけでなく、目に見えないスケールに拡張可能であることを示し、標準ベンチマーク上で既存の任意のスケールの超解像モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-10-07T09:24:38Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。