論文の概要: Diffusion Transformer Captures Spatial-Temporal Dependencies: A Theory for Gaussian Process Data
- arxiv url: http://arxiv.org/abs/2407.16134v1
- Date: Tue, 23 Jul 2024 02:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:55:32.843416
- Title: Diffusion Transformer Captures Spatial-Temporal Dependencies: A Theory for Gaussian Process Data
- Title(参考訳): 拡散変換器による空間時間依存性のキャプチャ:ガウス過程データの理論
- Authors: Hengyu Fu, Zehao Dou, Jiawei Guo, Mengdi Wang, Minshuo Chen,
- Abstract要約: ビデオ生成のためのSoraのバックボーンであるDiffusion Transformerは、拡散モデルのキャパシティをうまく拡張する。
空間的・時間的依存関係を捉えるための拡散変圧器のブリッジ化に向けた第一歩を踏み出す。
空間的時間的依存が学習効率にどのように影響するかを強調した。
- 参考スコア(独自算出の注目度): 39.41800375686212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformer, the backbone of Sora for video generation, successfully scales the capacity of diffusion models, pioneering new avenues for high-fidelity sequential data generation. Unlike static data such as images, sequential data consists of consecutive data frames indexed by time, exhibiting rich spatial and temporal dependencies. These dependencies represent the underlying dynamic model and are critical to validate the generated data. In this paper, we make the first theoretical step towards bridging diffusion transformers for capturing spatial-temporal dependencies. Specifically, we establish score approximation and distribution estimation guarantees of diffusion transformers for learning Gaussian process data with covariance functions of various decay patterns. We highlight how the spatial-temporal dependencies are captured and affect learning efficiency. Our study proposes a novel transformer approximation theory, where the transformer acts to unroll an algorithm. We support our theoretical results by numerical experiments, providing strong evidence that spatial-temporal dependencies are captured within attention layers, aligning with our approximation theory.
- Abstract(参考訳): ビデオ生成のためのSoraのバックボーンであるDiffusion Transformerは、拡散モデルのキャパシティを向上し、高忠実なシーケンシャルデータ生成のための新しい道の開拓に成功している。
画像などの静的データとは異なり、シーケンシャルデータは時間単位でインデックスされた連続したデータフレームで構成され、豊富な空間的および時間的依存関係を示す。
これらの依存関係は、基盤となる動的モデルを表し、生成されたデータの検証に不可欠である。
本稿では,空間的時間的依存関係を捉えるための拡散変圧器のブリッジ化に向けた最初の理論的ステップについて述べる。
具体的には、様々な減衰パターンの共分散関数を持つガウス過程データを学習するための拡散変換器のスコア近似と分布推定の保証を確立する。
空間的時間的依存が学習効率にどのように影響するかを強調した。
本研究は,変圧器がアルゴリズムを解き放つ作用を持つような,新しい変圧器近似理論を提案する。
我々は数値実験によって理論的結果をサポートし、空間的時間的依存関係が注意層内で捕捉されるという強い証拠を、近似理論と整合して提供する。
関連論文リスト
- On the Relation Between Linear Diffusion and Power Iteration [42.158089783398616]
相関機械として生成過程を研究する」
生成過程の早い段階で低周波が出現し, 固有値に依存する速度で, 偏極基底ベクトルが真のデータにより整合していることが示される。
このモデルにより、線形拡散モデルが、一般的な電力反復法と同様に、基礎データの先頭固有ベクトルに平均的に収束することを示すことができる。
論文 参考訳(メタデータ) (2024-10-16T07:33:12Z) - Dynamical Regimes of Diffusion Models [14.797301819675454]
空間の次元とデータ数が大きい体制における生成拡散モデルについて検討する。
本研究は, 逆向き発生拡散過程における3つの異なる動的状態を明らかにするものである。
崩壊時間の次元とデータ数への依存性は、拡散モデルにおける次元の呪いの徹底的な評価を与える。
論文 参考訳(メタデータ) (2024-02-28T17:19:26Z) - DiffusionPCR: Diffusion Models for Robust Multi-Step Point Cloud
Registration [73.37538551605712]
ポイントクラウド登録(PCR)は、2つのポイントクラウド間の相対的な厳密な変換を推定する。
本稿では, PCR を拡散確率過程として定式化し, ノイズ変換を基礎的真理にマッピングする。
実験ではDiffusionPCRの有効性を示し,3Dおよび3DLoMatchに対する最先端の登録リコール率(95.3%/81.6%)を得た。
論文 参考訳(メタデータ) (2023-12-05T18:59:41Z) - Streaming Factor Trajectory Learning for Temporal Tensor Decomposition [33.18423605559094]
時相テンソル分解のためのストリーム係数軌道学習を提案する。
我々はガウス過程(GP)を用いて因子の軌道をモデル化し、その時間的進化を柔軟に推定する。
合成タスクと実世界のアプリケーションの両方において、SFTLの利点を示してきた。
論文 参考訳(メタデータ) (2023-10-25T21:58:52Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Real-time Inference and Extrapolation via a Diffusion-inspired Temporal
Transformer Operator (DiTTO) [1.5728609542259502]
本稿では,時間依存偏微分方程式(PDE)を時間的離散化を伴わずに時間外挿で連続的に解く演算子学習法を提案する。
Diffusion-inspired Temporal Transformer Operator (DiTTO) と呼ばれる提案手法は,遅延拡散モデルとその条件付け機構に着想を得たものである。
我々は,地球上の温度を数年間推定し,気候問題に対する外挿能力を示すとともに,二重円錐周りの超音速流れをモデル化する。
論文 参考訳(メタデータ) (2023-07-18T08:45:54Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - A Variational Perspective on Diffusion-Based Generative Models and Score
Matching [8.93483643820767]
連続時間生成拡散の確率推定のための変分フレームワークを導出する。
本研究は,プラグイン逆SDEの可能性の低い境界を最大化することと,スコアマッチング損失の最小化が等価であることを示す。
論文 参考訳(メタデータ) (2021-06-05T05:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。