論文の概要: Your ViT is Secretly a Hybrid Discriminative-Generative Diffusion Model
- arxiv url: http://arxiv.org/abs/2208.07791v1
- Date: Tue, 16 Aug 2022 15:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:35:31.837528
- Title: Your ViT is Secretly a Hybrid Discriminative-Generative Diffusion Model
- Title(参考訳): ViTはハイブリッドな差別・生成拡散モデル
- Authors: Xiulong Yang, Sheng-Min Shih, Yinlin Fu, Xiaoting Zhao, Shihao Ji
- Abstract要約: 我々はGenerative ViT(GenViT)と呼ばれる新しい生成モデルを導入する。
私たちは、画像生成と分類を共同で行うために、単一のViTを探索した最初の一人です。
私たちの研究は、画像生成と分類を共同で行うための単一のViTを探索する最初の試みのひとつです。
- 参考スコア(独自算出の注目度): 3.219880761967807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Denoising Probability Models (DDPM) and Vision Transformer (ViT)
have demonstrated significant progress in generative tasks and discriminative
tasks, respectively, and thus far these models have largely been developed in
their own domains. In this paper, we establish a direct connection between DDPM
and ViT by integrating the ViT architecture into DDPM, and introduce a new
generative model called Generative ViT (GenViT). The modeling flexibility of
ViT enables us to further extend GenViT to hybrid discriminative-generative
modeling, and introduce a Hybrid ViT (HybViT). Our work is among the first to
explore a single ViT for image generation and classification jointly. We
conduct a series of experiments to analyze the performance of proposed models
and demonstrate their superiority over prior state-of-the-arts in both
generative and discriminative tasks. Our code and pre-trained models can be
found in https://github.com/sndnyang/Diffusion_ViT .
- Abstract(参考訳): Diffusion Denoising Probability Models (DDPM) と Vision Transformer (ViT) は、それぞれ生成タスクと識別タスクにおいて大きな進歩を示しており、これまでこれらのモデルは、主に独自のドメインで開発されてきた。
本稿では, ViT アーキテクチャを DDPM に統合することで DDPM と ViT との直接接続を確立し, 生成型 ViT (GenViT) と呼ばれる新しい生成モデルを導入する。
ViTのモデリング柔軟性により、GenViTをさらにハイブリッドな識別世代モデリングに拡張し、Hybrid ViT(HybViT)を導入することができる。
我々の研究は、画像生成と分類を共同で行うための単一のViTを初めて探求した。
提案するモデルの性能を解析し,生成的および判別的タスクにおいて,先行技術よりも優れていることを示す実験を行った。
私たちのコードと事前トレーニングされたモデルは、https://github.com/sndnyang/Diffusion_ViT で参照できます。
関連論文リスト
- Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文 参考訳(メタデータ) (2023-12-25T09:32:28Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - ViT2EEG: Leveraging Hybrid Pretrained Vision Transformers for EEG Data [0.0]
画像ネット上で事前学習したハイブリッドビジョントランスフォーマー(ViT)モデルの脳波回帰タスクへの応用を実演する。
このモデルは、ImageNetの重みなしでトレーニングされた同じアーキテクチャのViTなど、他のモデルと比較して、顕著なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2023-08-01T11:10:33Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - ViTGAN: Training GANs with Vision Transformers [46.769407314698434]
視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。
ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。
我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2021-07-09T17:59:30Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。