論文の概要: Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders
- arxiv url: http://arxiv.org/abs/2602.10099v1
- Date: Tue, 10 Feb 2026 18:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.763863
- Title: Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders
- Title(参考訳): マニフォールドの学習:表現エンコーダを用いた標準拡散変換器のアンロック
- Authors: Amandeep Kumar, Vishal M. Patel,
- Abstract要約: 標準拡散変換器は直接表現に収束しないことを示す。
我々は幾何学的干渉を根本原因とみなす。
我々の手法RJFは、標準のDiT-Bアーキテクチャを効果的に収束させ、3.37のFIDを実現する。
- 参考スコア(独自算出の注目度): 48.68968421120471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging representation encoders for generative modeling offers a path for efficient, high-fidelity synthesis. However, standard diffusion transformers fail to converge on these representations directly. While recent work attributes this to a capacity bottleneck proposing computationally expensive width scaling of diffusion transformers we demonstrate that the failure is fundamentally geometric. We identify Geometric Interference as the root cause: standard Euclidean flow matching forces probability paths through the low-density interior of the hyperspherical feature space of representation encoders, rather than following the manifold surface. To resolve this, we propose Riemannian Flow Matching with Jacobi Regularization (RJF). By constraining the generative process to the manifold geodesics and correcting for curvature-induced error propagation, RJF enables standard Diffusion Transformer architectures to converge without width scaling. Our method RJF enables the standard DiT-B architecture (131M parameters) to converge effectively, achieving an FID of 3.37 where prior methods fail to converge. Code: https://github.com/amandpkr/RJF
- Abstract(参考訳): 生成モデリングのための表現エンコーダの活用は、効率的で高忠実な合成のためのパスを提供する。
しかし、標準拡散変換器はこれらの表現に直接収束しない。
最近の研究は、拡散変圧器の計算に高価な幅スケーリングを提案するキャパシティボトルネックによるものであるが、この故障は基本的に幾何学的であることを実証している。
標準的なユークリッドフローマッチングは、多様体面に従わずに、表現エンコーダの超球面特徴空間の低密度内部を通る確率パスを強制する。
これを解決するために,ヤコビ正規化(RJF)を用いたリーマンフローマッチングを提案する。
生成過程を多様体測地線に制約し、曲率による誤差伝播の補正を行うことで、RJFは標準拡散変換器アーキテクチャを幅スケーリングなしで収束させることができる。
我々の手法RJFは、標準のDiT-Bアーキテクチャ(131Mパラメータ)を効果的に収束させ、事前の手法が収束しない3.37のFIDを実現する。
コード:https://github.com/amandpkr/RJF
関連論文リスト
- Riemannian Flow Matching for Disentangled Graph Domain Adaptation [51.98961391065951]
グラフドメイン適応(GDA)は典型的には、ユークリッド空間におけるグラフ埋め込みの整列に逆学習を使用する。
DisRFMは、埋め込みとフローベースのトランスポートを統一する幾何学的なGDAフレームワークである。
論文 参考訳(メタデータ) (2026-01-31T11:05:35Z) - DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation [47.409626500688866]
本稿では,DINO Spherical Autoencoder(DINO-SAE)について述べる。
提案手法は, 既修のVFMと強いセマンティックアライメントを維持しつつ, 0.37 rFID と 26.2 dB PSNR に到達し, 最先端の再現性を実現する。
論文 参考訳(メタデータ) (2026-01-30T12:25:34Z) - Rectified-CFG++ for Flow Based Models [26.896426878221718]
本稿では,修正フローの決定論的効率を幾何学的条件付きルールと組み合わせた適応型予測器・補正器ガイダンスであるRectified-C++を提案する。
大規模なテキスト・ツー・イメージモデル(Flux, Stable Diffusion 3/3.5, Lumina)の実験では、Rectified-C++がベンチマークデータセットの標準CFGを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-10-09T00:00:47Z) - PiT: Progressive Diffusion Transformer [50.46345527963736]
拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。
DiTは以前信じられていたようなグローバルな情報に大きく依存していない。
Pseudo Progressive Diffusion Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2025-05-19T15:02:33Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - ET-Flow: Equivariant Flow-Matching for Molecular Conformer Generation [3.4146914514730633]
低エネルギー分子配座の予測にET-Flow(Equivariant Transformer Flow)を導入する。
提案手法は,最小限の仮定で全原子座標を演算する,単純でスケーラブルな手法である。
ET-Flowは、より軽量で推論の速いモデルでありながら、生成したコンバータの精度と物理的妥当性を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-29T16:44:10Z) - Convergence Analysis of Flow Matching in Latent Space with Transformers [7.069772598731282]
本稿では,ODEに基づく生成モデル,特にフローマッチングに関する理論的収束保証について述べる。
トレーニング済みのオートエンコーダネットワークを用いて、高次元の原入力を低次元の潜在空間にマッピングし、トランスフォーマーネットワークをトレーニングし、標準正規分布から目標潜在分布への変換速度場を予測する。
論文 参考訳(メタデータ) (2024-04-03T07:50:53Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。