論文の概要: RePack: Representation Packing of Vision Foundation Model Features Enhances Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2512.12083v1
- Date: Fri, 12 Dec 2025 23:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.104572
- Title: RePack: Representation Packing of Vision Foundation Model Features Enhances Diffusion Transformer
- Title(参考訳): RePack: 拡散変換を実現するビジョンファウンデーションモデル機能の表現パッケージ
- Authors: Guanfang Dong, Luke Schultz, Negar Hassanpour, Chao Gao,
- Abstract要約: RePack - Diffusion Transformer(DiT)を改善するフレームワーク
その結果,RePackは高忠実度復元に必要な構造情報を保存しながら,非意味ノイズを効果的に除去できることがわかった。
DiT-XL/2では、RePackは64エポックで3.66のFIDを達成しており、最先端の手法よりも35%高速である。
- 参考スコア(独自算出の注目度): 25.341339341959912
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The superior representation capability of pre-trained vision foundation models (VFMs) has been harnessed for enhancing latent diffusion models (LDMs). These approaches inject the rich semantics from high-dimensional VFM representations (e.g., DINOv3) into LDMs at different phases, resulting in accelerated learning and better generation performance. However, the high-dimensionality of VFM representations may also lead to Information Overload, particularly when the VFM features exceed the size of the original image for decoding. To address this issue while preserving the utility of VFM features, we propose RePack (Representation Packing), a simple yet effective framework for improving Diffusion Transformers (DiTs). RePack transforms the VFM representation into a more compact, decoder-friendly representation by projecting onto low-dimensional manifolds. We find that RePack can effectively filter out non-semantic noise while preserving the core structural information needed for high-fidelity reconstruction. Experimental results show that RePack significantly accelerates DiT convergence and outperforms recent methods that directly inject raw VFM features into the decoder for image reconstruction. On DiT-XL/2, RePack achieves an FID of 3.66 in only 64 epochs, which is 35% faster than the state-of-the-art method. This demonstrates that RePack successfully extracts the core semantics of VFM representations while bypassing their high-dimensionality side effects.
- Abstract(参考訳): 事前学習型視覚基礎モデル(VFM)の優れた表現能力は、潜在拡散モデル(LDM)の強化に活用されている。
これらのアプローチは、高次元のVFM表現(例えば、DINOv3)から様々な位相でLDMにリッチな意味論を注入し、学習の高速化と生成性能の向上をもたらす。
しかしながら、VFM表現の高次元性は、特にVFM特徴が復号化のために元の画像よりも大きい場合、情報過負荷につながる可能性がある。
VFM機能の有用性を維持しながらこの問題に対処するため,Diffusion Transformer (DiT) を改善するためのシンプルかつ効果的なフレームワークであるRePack(Representation Packing)を提案する。
RePackは、VFM表現を低次元多様体に射影することで、よりコンパクトでデコーダフレンドリーな表現に変換する。
その結果,RePackは高忠実度復元に必要な構造情報を保存しながら,非意味ノイズを効果的に除去できることがわかった。
実験結果から、RePackはDiT収束を著しく加速し、画像再構成のためのデコーダに生のVFM機能を直接注入する最近の手法よりも優れていることが示された。
DiT-XL/2では、RePackは64エポックで3.66のFIDを達成しており、最先端の手法よりも35%高速である。
このことは、RePackが高次元の副作用を回避しながら、VFM表現のコアセマンティクスをうまく抽出したことを示している。
関連論文リスト
- SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder [90.28800377462197]
SVG-T2Iは,VFM機能領域で直接,高品質なテキスト・画像合成をサポートする。
標準のテキスト-画像拡散パイプラインを利用することで、SVG-T2Iは競争性能が向上し、GenEvalは0.75、DPG-Benchは85.78に達した。
私たちは、オートエンコーダと生成モデルを含むプロジェクトを、トレーニング、推論、評価パイプライン、トレーニング済みウェイトとともに完全にオープンソース化し、表現駆動型視覚生成のさらなる研究を支援します。
論文 参考訳(メタデータ) (2025-12-12T17:45:03Z) - NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering [80.55691420311616]
隣り合う注意フィルタリング(NAF)は、クロススケールな隣り合う注意と回転位置埋め込み(RoPE)を通して、適応的な空間・コンテンツ重みを学習する
NAFはゼロショットを運用しており、再訓練せずにヴィジョン・ファンデーション・モデル(VFM)の機能をアップサンプルしている。
高効率を維持し、2Kのフィーチャーマップにスケーリングし、18 FPSで中間解像度マップを再構築する。
論文 参考訳(メタデータ) (2025-11-23T13:43:52Z) - HiMat: DiT-based Ultra-High Resolution SVBRDF Generation [26.081964370337943]
HiMatは、効率的な4K SVBRDF生成に適した拡散ベースのフレームワークである。
CrossStitchは軽量な畳み込みモジュールで、グローバルな注目を集めるコストを伴わずに、クロスマップの一貫性を強制する。
論文 参考訳(メタデータ) (2025-08-09T15:16:58Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection [4.5138645285711165]
LSP-ST(Ladder Shape-Biased Side-Tuning)を提案する。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。
ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。
ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文 参考訳(メタデータ) (2025-04-11T14:49:52Z) - Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, Spatial Purification, and Scale Diversification [6.341065683872316]
ViTは、画像の高周波成分を捉えるのに苦労し、局所的なテクスチャやエッジ情報を検出する能力を制限する。
コンテンツ中の関連トークンと非関連トークンのうち、MSA(Multi-head self-attention)を計算する。
ViTsのフィードフォワードネットワークは、画像復元に重要なマルチスケール情報をモデル化することができない。
論文 参考訳(メタデータ) (2024-12-14T10:03:08Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection [17.631688089207724]
屋内シーンでは、物体の位置とスケールの多様さが視覚的な3D知覚タスクを大きな課題にしている。
従来の研究では、暗黙の表現は視覚的な3D知覚タスクに役立てる能力を持っていることが示されている。
これらの問題に対処するために, 単純で効果的なNeRF-DetSを提案する。
論文 参考訳(メタデータ) (2024-04-22T06:59:03Z) - Cross-view Masked Diffusion Transformers for Person Image Synthesis [21.242398582282522]
ポーズ誘導画像生成のための新しい拡散モデルであるX-MDPTを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
我々のモデルはDeepFashionデータセットにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-02-02T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。