論文の概要: All are Worth Words: A ViT Backbone for Diffusion Models
- arxiv url: http://arxiv.org/abs/2209.12152v4
- Date: Sat, 25 Mar 2023 13:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 02:38:38.910709
- Title: All are Worth Words: A ViT Backbone for Diffusion Models
- Title(参考訳): すべて価値ある単語:拡散モデルのためのViTバックボーン
- Authors: Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, Jun Zhu
- Abstract要約: 拡散モデルを用いた画像生成のための単純で汎用的なViTアーキテクチャ(U-ViT)を設計する。
非条件およびクラス条件の画像生成およびテキスト・ツー・イメージ生成タスクにおけるU-ViTの評価を行う。
特に、U-ViTを用いた遅延拡散モデルは、ImageNet 256x256のクラス条件画像生成で2.29、MS-COCOのテキスト・ツー・イメージ生成で5.48という記録破りのFIDスコアを達成している。
- 参考スコア(独自算出の注目度): 40.295027370680636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViT) have shown promise in various vision tasks while
the U-Net based on a convolutional neural network (CNN) remains dominant in
diffusion models. We design a simple and general ViT-based architecture (named
U-ViT) for image generation with diffusion models. U-ViT is characterized by
treating all inputs including the time, condition and noisy image patches as
tokens and employing long skip connections between shallow and deep layers. We
evaluate U-ViT in unconditional and class-conditional image generation, as well
as text-to-image generation tasks, where U-ViT is comparable if not superior to
a CNN-based U-Net of a similar size. In particular, latent diffusion models
with U-ViT achieve record-breaking FID scores of 2.29 in class-conditional
image generation on ImageNet 256x256, and 5.48 in text-to-image generation on
MS-COCO, among methods without accessing large external datasets during the
training of generative models. Our results suggest that, for diffusion-based
image modeling, the long skip connection is crucial while the down-sampling and
up-sampling operators in CNN-based U-Net are not always necessary. We believe
that U-ViT can provide insights for future research on backbones in diffusion
models and benefit generative modeling on large scale cross-modality datasets.
- Abstract(参考訳): 視覚変換器(ViT)は様々な視覚タスクにおいて有望であるが、畳み込みニューラルネットワーク(CNN)に基づくU-Netは拡散モデルにおいて支配的である。
拡散モデルを用いた画像生成のための単純で汎用的なViTアーキテクチャ(U-ViT)を設計する。
U-ViTは、時間、条件、ノイズの多い画像パッチを含む全ての入力をトークンとして扱い、浅い層と深い層の間の長いスキップ接続を利用する。
非条件およびクラス条件の画像生成におけるU-ViTの評価と,CNNベースのU-Netと比較した場合のテキスト・画像生成タスクについて検討した。
特に、U-ViTを用いた潜伏拡散モデルは、画像Net 256x256のクラス条件画像生成で2.29点、MS-COCOのテキスト画像生成で5.48点という記録破りのFIDスコアを達成している。
その結果,拡散に基づく画像モデリングでは長いスキップ接続が不可欠であるが,cnnベースのu-netではダウンサンプリングやアップサンプリング演算子が必ずしも必要ではないことが示唆された。
U-ViTは、拡散モデルにおけるバックボーンの今後の研究への洞察を与え、大規模なクロスモダリティデータセットにおける生成的モデリングに役立てることができると信じている。
関連論文リスト
- Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンの分野で新しい研究の波をもたらした。
本稿では、iSAID上のリモートセンシング空中画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-14T00:18:04Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。