論文の概要: Your ViT is Secretly a Hybrid Discriminative-Generative Diffusion Model
- arxiv url: http://arxiv.org/abs/2208.07791v1
- Date: Tue, 16 Aug 2022 15:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:35:31.837528
- Title: Your ViT is Secretly a Hybrid Discriminative-Generative Diffusion Model
- Title(参考訳): ViTはハイブリッドな差別・生成拡散モデル
- Authors: Xiulong Yang, Sheng-Min Shih, Yinlin Fu, Xiaoting Zhao, Shihao Ji
- Abstract要約: 我々はGenerative ViT(GenViT)と呼ばれる新しい生成モデルを導入する。
私たちは、画像生成と分類を共同で行うために、単一のViTを探索した最初の一人です。
私たちの研究は、画像生成と分類を共同で行うための単一のViTを探索する最初の試みのひとつです。
- 参考スコア(独自算出の注目度): 3.219880761967807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Denoising Probability Models (DDPM) and Vision Transformer (ViT)
have demonstrated significant progress in generative tasks and discriminative
tasks, respectively, and thus far these models have largely been developed in
their own domains. In this paper, we establish a direct connection between DDPM
and ViT by integrating the ViT architecture into DDPM, and introduce a new
generative model called Generative ViT (GenViT). The modeling flexibility of
ViT enables us to further extend GenViT to hybrid discriminative-generative
modeling, and introduce a Hybrid ViT (HybViT). Our work is among the first to
explore a single ViT for image generation and classification jointly. We
conduct a series of experiments to analyze the performance of proposed models
and demonstrate their superiority over prior state-of-the-arts in both
generative and discriminative tasks. Our code and pre-trained models can be
found in https://github.com/sndnyang/Diffusion_ViT .
- Abstract(参考訳): Diffusion Denoising Probability Models (DDPM) と Vision Transformer (ViT) は、それぞれ生成タスクと識別タスクにおいて大きな進歩を示しており、これまでこれらのモデルは、主に独自のドメインで開発されてきた。
本稿では, ViT アーキテクチャを DDPM に統合することで DDPM と ViT との直接接続を確立し, 生成型 ViT (GenViT) と呼ばれる新しい生成モデルを導入する。
ViTのモデリング柔軟性により、GenViTをさらにハイブリッドな識別世代モデリングに拡張し、Hybrid ViT(HybViT)を導入することができる。
我々の研究は、画像生成と分類を共同で行うための単一のViTを初めて探求した。
提案するモデルの性能を解析し,生成的および判別的タスクにおいて,先行技術よりも優れていることを示す実験を行った。
私たちのコードと事前トレーニングされたモデルは、https://github.com/sndnyang/Diffusion_ViT で参照できます。
関連論文リスト
- Denoising Vision Transformers [43.319396123318676]
ビジョントランスフォーマー(ViT)はグリッドのような成果物を示し、下流タスクにおけるViTのパフォーマンスを著しく損なう。
本稿では,全VTに適用可能な新しいノイズモデルを提案する。
未処理のViT出力から直接アーチファクトフリーの機能を予測するための学習可能なデノイザを導入する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding [84.69144118699766]
近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
論文 参考訳(メタデータ) (2023-12-27T08:52:41Z) - Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文 参考訳(メタデータ) (2023-12-25T09:32:28Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - ViT2EEG: Leveraging Hybrid Pretrained Vision Transformers for EEG Data [0.0]
画像ネット上で事前学習したハイブリッドビジョントランスフォーマー(ViT)モデルの脳波回帰タスクへの応用を実演する。
このモデルは、ImageNetの重みなしでトレーニングされた同じアーキテクチャのViTなど、他のモデルと比較して、顕著なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2023-08-01T11:10:33Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。