論文の概要: RiT: Vanilla Diffusion Transformers Suffice in Representation Space
- arxiv url: http://arxiv.org/abs/2605.21981v1
- Date: Thu, 21 May 2026 04:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.090256
- Title: RiT: Vanilla Diffusion Transformers Suffice in Representation Space
- Title(参考訳): RiT:バニラ拡散変圧器は表現空間で十分
- Authors: Le Zhang, Ning Mang, Aishwarya Agrawal,
- Abstract要約: x$prediction とのフローマッチングは、ピクセル空間 citeli2025back において、低次元多様体構造を効果的に活用することが知られている。
事前学習された表現空間は、本質的な次元に匹敵する低次元データ多様体を含むが、フローマッチング学習に好適な分布を提供するかどうかを問う。
- 参考スコア(独自算出の注目度): 12.711808725422108
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Flow matching with $x$-prediction -- regressing the clean data point rather than the ambient velocity -- is known to exploit low-dimensional manifold structure effectively in pixel space \cite{li2025back}. We ask whether a pretrained representation space, while containing a low-dimensional data manifold of comparable intrinsic dimensionality, offers a distribution more favorable for flow-matching learning. Comparing pixel, SD-VAE, and DINOv2 features along four geometric axes, we find that pixel and DINOv2 share nearly identical intrinsic dimensionalities (both $\hat{d}\!\approx\!33$) yet DINOv2 exhibits $7.3\times$ higher effective rank, $35\times$ better covariance conditioning, $11.5\times$ lower excess kurtosis, and $1.7\times$ lower on-manifold interpolation error; SD-VAE latents are consistently intermediate, indicating that the advantage stems from representation-learning objectives rather than mere compression. These statistical properties render the flow-matching regression well-conditioned and remove the need for the specialized prediction heads or Riemannian transport used by prior DINOv2 diffusion methods. We propose the \emph{Representation Image Transformer} (RiT): a vanilla Diffusion Transformer trained by $x$-prediction on frozen DINOv2 features, augmented only by a dimension-aware noise schedule and joint \texttt{[CLS]}-patch modeling. On ImageNet $256{\times}256$, RiT attains FID 1.45 without guidance and 1.14 with classifier-free guidance, outperforming DiT$^\text{DH}$-XL with $19\%$ fewer parameters (676M vs.\ 839M). The resulting ODE is efficiently solvable at coarse discretizations: with classifier-free guidance, $5$ Heun steps already reach FID 2.0 and $10$ steps reach 1.25, without distillation or consistency training. Code at https://github.com/lezhang7/RiT.
- Abstract(参考訳): 周囲速度よりもクリーンなデータポイントを回帰する$x$-predictionとのフローマッチングは、ピクセル空間 \cite{li2025back} において、低次元多様体構造を効果的に活用することが知られている。
事前学習された表現空間は、本質的な次元に匹敵する低次元データ多様体を含むが、フローマッチング学習に好適な分布を提供するかどうかを問う。
4つの幾何学的軸に沿ったピクセル、SD-VAE、DINOv2の特徴を比較すると、ピクセルとDINOv2はほぼ同じ固有次元($\hat{d}\!
\approx\!
33$) しかし、DINOv2は7.3\times$高い有効ランク、35\times$より良い共分散条件、11.5\times$低い過剰カルトシス、1.7\times$低いオンマンフォールド補間誤差を示す。
これらの統計的性質は、フローマッチング回帰をよく条件付けし、以前のDINOv2拡散法で使われる特殊予測ヘッドやリーマン輸送の必要性を取り除く。
凍結したDINOv2特徴量に対して$x$-predictionでトレーニングされたバニラ拡散変換器を,次元認識ノイズスケジュールとジョイント \texttt{[CLS]}-パッチモデルでのみ拡張する。
ImageNet $256{\times}256$で、RiTはガイダンスなしでFID 1.45、分類なしガイダンスで1.14を達成し、DiT$^\text{DH}$-XLを119\%$より少ないパラメータ(676M対)で上回る。
839M)。
分類器なしのガイダンスでは、既に$5$ Heun のステップが FID 2.0 に達し、$10$ のステップが蒸留や整合性トレーニングなしで 1.25 に達する。
コードネームはhttps://github.com/lezhang7/RiT。
関連論文リスト
- Stitched Value Model for Diffusion Alignment [76.52330634059528]
拡散またはフローベースの生成モデルは、即興の忠実さや美的嗜好など、タスク固有の報酬と整合していなければならない。
本稿では、クリーンな画像のために事前訓練された報酬モデルをノイズの多い潜伏状態に効率的に転送するモデル縫合フレームワークであるStitchVMを提案する。
提案手法は,下流のステアリングおよびポストトレーニング手法の幅広い改善をもたらすことを示す。
論文 参考訳(メタデータ) (2026-05-19T13:02:50Z) - Finite Volume-Informed Neural Network Framework for 2D Shallow Water Equations: Rugged Loss Landscapes and the Importance of Data Guidance [3.04375043248235]
データガイドFVM-PINN'は,非構造化メッシュ上で評価された強形式残差を,微分可能でバランスの取れた有限体積損失(FVM)に置き換えるフレームワークである。
このフレームワークは、SRH-2Dアンカーデータから正確なサロゲートを構築する。
論文 参考訳(メタデータ) (2026-05-09T22:03:56Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - LoRIF: Low-Rank Influence Functions for Scalable Training Data Attribution [62.830878652285406]
トレーニングデータ属性は、モデルの予測に最も影響したトレーニング例を特定する。
LoRIFは、両方のボトルネックに対処するために、勾配の低ランク構造を利用する。
数百万のサンプルでデータセットでトレーニングされた0.1Bから70Bパラメータのモデルで、LoRIFは最大20$timesのストレージ削減とクエリ時の高速化を実現している。
論文 参考訳(メタデータ) (2026-01-29T16:18:34Z) - Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:29:18Z) - Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Cross-view Masked Diffusion Transformers for Person Image Synthesis [21.242398582282522]
ポーズ誘導画像生成のための新しい拡散モデルであるX-MDPTを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
我々のモデルはDeepFashionデータセットにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-02-02T15:57:13Z) - PFGM++: Unlocking the Potential of Physics-Inspired Generative Models [14.708385906024546]
PFGM++と呼ばれる物理に着想を得た新しい生成モデルを導入する。
これらのモデルは、$N+D$次元空間に経路を埋め込むことにより、$N$次元データの生成軌道を実現する。
有限$D$のモデルは、従来の最先端拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T18:58:02Z) - Poisson Flow Generative Models [9.843778728210427]
ポアソンフロー」生成モデルは、高次元半球上の一様分布を任意のデータ分布にマッピングする。
PFGM は CIFAR-10 上での正規化フローモデルの中で現在の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T17:26:58Z) - Efficient estimation of the ANOVA mean dimension, with an application to
neural net classification [0.0]
ブラックボックス関数の$d$変数の平均次元は、$d$ Sobol'のインデックスの和として記述される。
筆者らは, ウインド・階段と呼ばれるギブス・サンプルラー, ベースラインから各変数を一度に変化させるラジアル・サンプルラー, 関数評価を再利用しないナイーブ・サンプルラーを比較した。
論文 参考訳(メタデータ) (2020-07-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。