論文の概要: Exploring Vision Transformers as Diffusion Learners
- arxiv url: http://arxiv.org/abs/2212.13771v1
- Date: Wed, 28 Dec 2022 10:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:36:48.434111
- Title: Exploring Vision Transformers as Diffusion Learners
- Title(参考訳): 拡散学習者としての視覚トランスフォーマーの探索
- Authors: He Cao, Jianan Wang, Tianhe Ren, Xianbiao Qi, Yihao Chen, Yuan Yao,
Lei Zhang
- Abstract要約: 様々な生成タスクのための拡散学習者として視覚変換器を体系的に探索する。
我々の改良により、バニラVTベースのバックボーン(IU-ViT)の性能は従来のU-Netベースの方法と同等に向上した。
我々は、64x64解像度を超えるテキスト・ツー・イメージタスクで単一の拡散モデルをトレーニングした最初の人です。
- 参考スコア(独自算出の注目度): 15.32238726790633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based diffusion models have captured widespread attention and funded
fast progress of recent vision generative tasks. In this paper, we focus on
diffusion model backbone which has been much neglected before. We
systematically explore vision Transformers as diffusion learners for various
generative tasks. With our improvements the performance of vanilla ViT-based
backbone (IU-ViT) is boosted to be on par with traditional U-Net-based methods.
We further provide a hypothesis on the implication of disentangling the
generative backbone as an encoder-decoder structure and show proof-of-concept
experiments verifying the effectiveness of a stronger encoder for generative
tasks with ASymmetriC ENcoder Decoder (ASCEND). Our improvements achieve
competitive results on CIFAR-10, CelebA, LSUN, CUB Bird and large-resolution
text-to-image tasks. To the best of our knowledge, we are the first to
successfully train a single diffusion model on text-to-image task beyond 64x64
resolution. We hope this will motivate people to rethink the modeling choices
and the training pipelines for diffusion-based generative models.
- Abstract(参考訳): スコアベースの拡散モデルが広く注目を集め、近年の視覚生成タスクの急速な進展に資金を提供している。
本稿では,これまで無視されてきた拡散モデルバックボーンに着目した。
我々は様々な生成タスクの拡散学習者として視覚トランスフォーマーを体系的に探索する。
我々の改良により、バニラVTベースのバックボーン(IU-ViT)の性能は従来のU-Netベースの方法と同等に向上した。
さらに,非対称エンコーダデコーダ(ascend)を用いた生成課題に対する強いエンコーダの有効性を検証する概念実証実験を行い,生成バックボーンをエンコーダ-デコーダ構造として非結合化するという仮説を提示した。
CIFAR-10, CelebA, LSUN, CUB Bird, および高解像度テキスト・ツー・イメージタスクの競合性を実現する。
私たちの知る限りでは、64x64以上の解像度でテキストから画像へのタスクで単一の拡散モデルをうまくトレーニングした最初の例です。
これが、拡散ベースの生成モデルのためのモデリング選択とトレーニングパイプラインを再考する動機になることを期待しています。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning [6.06616040517684]
DAAGは、拡散モデルを使って動画を変換することで、エージェントの過去の経験を再ラベルする。
大規模言語モデルは、人間の監督を必要とせずに、この自律的なプロセスを編成する。
その結果、DAAGは報酬検知器の学習を改善し、過去の経験を移譲し、新しいタスクを取得する。
論文 参考訳(メタデータ) (2024-07-30T13:01:31Z) - U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation [48.40120035775506]
Kolmogorov-Arnold Networks (KAN)は、非線形学習可能なアクティベーション関数のスタックを通じてニューラルネットワーク学習を再構築する。
トークン化中間表現であるU-KAN上に専用kan層を統合することにより,確立したU-Netパイプラインを検証,修正,再設計する。
さらに、拡散モデルにおける代替U-Netノイズ予測器としてのU-KANの可能性を探り、タスク指向モデルアーキテクチャの生成にその適用性を実証した。
論文 参考訳(メタデータ) (2024-06-05T04:13:03Z) - Neural Network Parameter Diffusion [50.85251415173792]
拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。
本研究は拡散モデルにも適用可能であることを示す。
高性能なニューラルネットワークパラメータを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。
我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。
また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文 参考訳(メタデータ) (2023-03-20T02:40:16Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。