論文の概要: All are Worth Words: a ViT Backbone for Score-based Diffusion Models
- arxiv url: http://arxiv.org/abs/2209.12152v1
- Date: Sun, 25 Sep 2022 05:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:10:46.754450
- Title: All are Worth Words: a ViT Backbone for Score-based Diffusion Models
- Title(参考訳): すべての価値ある単語:スコアベースの拡散モデルのためのvitバックボーン
- Authors: Fan Bao, Chongxuan Li, Yue Cao, Jun Zhu
- Abstract要約: ビジョントランス (ViT) は、低レベルタスクを含む様々なビジョンタスクにおいて有望であることを示す。
新しいViTアーキテクチャは、他の改良とともにU-ViTと呼ばれる。
いくつかの人気のあるビジュアルデータセットにおいて、U-ViTはSOTA U-Netと競合する生成結果を達成する。
- 参考スコア(独自算出の注目度): 42.22080309705222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViT) have shown promise in various vision tasks
including low-level ones while the U-Net remains dominant in score-based
diffusion models. In this paper, we perform a systematical empirical study on
the ViT-based architectures in diffusion models. Our results suggest that
adding extra long skip connections (like the U-Net) to ViT is crucial to
diffusion models. The new ViT architecture, together with other improvements,
is referred to as U-ViT. On several popular visual datasets, U-ViT achieves
competitive generation results to SOTA U-Net while requiring comparable amount
of parameters and computation if not less.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は低レベルのタスクを含む様々なビジョンタスクにおいて有望であり、一方U-Netはスコアベース拡散モデルにおいて支配的である。
本稿では,拡散モデルにおけるvitに基づくアーキテクチャに関する体系的実証研究を行う。
この結果から,ViTに長いスキップ接続(U-Netなど)を追加することは拡散モデルにとって重要であることが示唆された。
新しいViTアーキテクチャは、他の改良とともにU-ViTと呼ばれている。
いくつかの人気のあるビジュアルデータセットにおいて、U-ViTはSOTA U-Netと競合する生成結果を達成し、それ以下のパラメータと計算を必要とする。
関連論文リスト
- Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンの分野で新しい研究の波をもたらした。
本稿では、iSAID上のリモートセンシング空中画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-14T00:18:04Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。