論文の概要: On Inductive Biases That Enable Generalization of Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2410.21273v1
- Date: Mon, 28 Oct 2024 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:15.170495
- Title: On Inductive Biases That Enable Generalization of Diffusion Transformers
- Title(参考訳): 拡散変換器の一般化を可能にする誘導バイアスについて
- Authors: Jie An, De Wang, Pengsheng Guo, Jiebo Luo, Alexander Schwing,
- Abstract要約: インダクティブバイアスを探索し、DiTモデルに良い一般化をもたらす。
CelebA、ImageNet、LSUNデータセットの実験では、DiTの帰納バイアスを強化することで、一般化と生成品質が向上することが示された。
- 参考スコア(独自算出の注目度): 85.01966755774167
- License:
- Abstract: Recent work studying the generalization of diffusion models with UNet-based denoisers reveals inductive biases that can be expressed via geometry-adaptive harmonic bases. However, in practice, more recent denoising networks are often based on transformers, e.g., the diffusion transformer (DiT). This raises the question: do transformer-based denoising networks exhibit inductive biases that can also be expressed via geometry-adaptive harmonic bases? To our surprise, we find that this is not the case. This discrepancy motivates our search for the inductive bias that can lead to good generalization in DiT models. Investigating the pivotal attention modules of a DiT, we find that locality of attention maps are closely associated with generalization. To verify this finding, we modify the generalization of a DiT by restricting its attention windows. We inject local attention windows to a DiT and observe an improvement in generalization. Furthermore, we empirically find that both the placement and the effective attention size of these local attention windows are crucial factors. Experimental results on the CelebA, ImageNet, and LSUN datasets show that strengthening the inductive bias of a DiT can improve both generalization and generation quality when less training data is available. Source code will be released publicly upon paper publication. Project page: dit-generalization.github.io/.
- Abstract(参考訳): UNetベースのデノイザを用いた拡散モデルの一般化を研究する最近の研究は、幾何適応調和基底を通して表現できる帰納的バイアスを明らかにしている。
しかし、実際には、より最近のデノナイジングネットワークは、しばしば、拡散変換器(DiT)のような変換器に基づいている。
トランスフォーマーベースのデノゲーションネットワークは、幾何適応調和ベースを通して表現できる帰納バイアスを示すのだろうか?
驚いたことに、これはそうではない。
この相違は、DiTモデルにおいて良い一般化をもたらす帰納的バイアスの探索を動機付けている。
注意写像の局所性は一般化と密接に関連している。
この発見を検証するために、注意窓を制限してDiTの一般化を変更する。
局所的な注意窓をDiTに注入し、一般化の改善を観察する。
さらに,これらの局所的注意窓の配置と有効注意サイズの両方が重要な要因であることが実証的に確認された。
CelebA, ImageNet, LSUNデータセットの実験結果は、DiTの帰納バイアスを強化することで、トレーニングデータが少ない場合には、一般化と生成品質の両方を改善することができることを示している。
ソースコードは公刊で公開される。
プロジェクトページ: dit- generalization.github.io/
関連論文リスト
- On the Relation Between Linear Diffusion and Power Iteration [42.158089783398616]
相関機械として生成過程を研究する」
生成過程の早い段階で低周波が出現し, 固有値に依存する速度で, 偏極基底ベクトルが真のデータにより整合していることが示される。
このモデルにより、線形拡散モデルが、一般的な電力反復法と同様に、基礎データの先頭固有ベクトルに平均的に収束することを示すことができる。
論文 参考訳(メタデータ) (2024-10-16T07:33:12Z) - From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers [7.011373967209572]
対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。
ABC を用いて,変圧器モデルにより,ある種の算術課題において,前例のないほぼ完全長の一般化を達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-18T14:10:47Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Strong inductive biases provably prevent harmless interpolation [8.946655323517092]
本論文は, 推定者の帰納バイアスの強さに無害な程度の影響が及ぶことを論じる。
我々の主理論的結果は、高次元のカーネル回帰に対する厳密な非漸近境界を確立する。
論文 参考訳(メタデータ) (2023-01-18T15:37:11Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Self-Conditioned Generative Adversarial Networks for Image Editing [61.50205580051405]
Generative Adversarial Networks (GAN) はバイアスの影響を受けやすい。
我々は、このバイアスが公平性だけでなく、分布のコアから逸脱する際の潜在トラバース編集手法の崩壊に重要な役割を果たしていると論じる。
論文 参考訳(メタデータ) (2022-02-08T18:08:24Z) - Trust the Critics: Generatorless and Multipurpose WGANs with Initial
Convergence Guarantees [5.156484100374058]
Trust the Critics (TTC) は生成モデリングのための新しいアルゴリズムである。
TTCは、訓練された批評家ネットワークのシーケンス上で勾配降下を用いて、ソースデータを反復的に修正する。
論文 参考訳(メタデータ) (2021-11-30T03:36:44Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。