Fugu-MT 論文翻訳(概要): Your ViT is Secretly a Hybrid Discriminative-Generative Diffusion Model

論文の概要: Your ViT is Secretly a Hybrid Discriminative-Generative Diffusion Model

arxiv url: http://arxiv.org/abs/2208.07791v1
Date: Tue, 16 Aug 2022 15:02:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-17 12:35:31.837528
Title: Your ViT is Secretly a Hybrid Discriminative-Generative Diffusion Model
Title（参考訳）: ViTはハイブリッドな差別・生成拡散モデル
Authors: Xiulong Yang, Sheng-Min Shih, Yinlin Fu, Xiaoting Zhao, Shihao Ji
Abstract要約: 我々はGenerative ViT(GenViT)と呼ばれる新しい生成モデルを導入する。私たちは、画像生成と分類を共同で行うために、単一のViTを探索した最初の一人です。私たちの研究は、画像生成と分類を共同で行うための単一のViTを探索する最初の試みのひとつです。
参考スコア（独自算出の注目度）: 3.219880761967807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Denoising Probability Models (DDPM) and Vision Transformer (ViT) have demonstrated significant progress in generative tasks and discriminative tasks, respectively, and thus far these models have largely been developed in their own domains. In this paper, we establish a direct connection between DDPM and ViT by integrating the ViT architecture into DDPM, and introduce a new generative model called Generative ViT (GenViT). The modeling flexibility of ViT enables us to further extend GenViT to hybrid discriminative-generative modeling, and introduce a Hybrid ViT (HybViT). Our work is among the first to explore a single ViT for image generation and classification jointly. We conduct a series of experiments to analyze the performance of proposed models and demonstrate their superiority over prior state-of-the-arts in both generative and discriminative tasks. Our code and pre-trained models can be found in https://github.com/sndnyang/Diffusion_ViT .
Abstract（参考訳）: Diffusion Denoising Probability Models (DDPM) と Vision Transformer (ViT) は、それぞれ生成タスクと識別タスクにおいて大きな進歩を示しており、これまでこれらのモデルは、主に独自のドメインで開発されてきた。本稿では, ViT アーキテクチャを DDPM に統合することで DDPM と ViT との直接接続を確立し, 生成型 ViT (GenViT) と呼ばれる新しい生成モデルを導入する。 ViTのモデリング柔軟性により、GenViTをさらにハイブリッドな識別世代モデリングに拡張し、Hybrid ViT(HybViT)を導入することができる。我々の研究は、画像生成と分類を共同で行うための単一のViTを初めて探求した。提案するモデルの性能を解析し,生成的および判別的タスクにおいて,先行技術よりも優れていることを示す実験を行った。私たちのコードと事前トレーニングされたモデルは、https://github.com/sndnyang/Diffusion_ViT で参照できます。

関連論文リスト

LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文参考訳（メタデータ） (2023-12-25T09:32:28Z)
DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文参考訳（メタデータ） (2023-12-04T18:57:01Z)
ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。 ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。 ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文参考訳（メタデータ） (2023-11-27T18:52:09Z)
Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文参考訳（メタデータ） (2023-09-24T10:22:35Z)
ViT2EEG: Leveraging Hybrid Pretrained Vision Transformers for EEG Data [0.0]
画像ネット上で事前学習したハイブリッドビジョントランスフォーマー(ViT)モデルの脳波回帰タスクへの応用を実演する。このモデルは、ImageNetの重みなしでトレーニングされた同じアーキテクチャのViTなど、他のモデルと比較して、顕著なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2023-08-01T11:10:33Z)
Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。 5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文参考訳（メタデータ） (2022-07-25T17:57:05Z)
ViTGAN: Training GANs with Vision Transformers [46.769407314698434]
視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。 ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
論文参考訳（メタデータ） (2021-07-09T17:59:30Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。