論文の概要: U-REPA: Aligning Diffusion U-Nets to ViTs
- arxiv url: http://arxiv.org/abs/2503.18414v1
- Date: Mon, 24 Mar 2025 07:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:04.629713
- Title: U-REPA: Aligning Diffusion U-Nets to ViTs
- Title(参考訳): U-REPA: ViT への拡散 U-Net の調整
- Authors: Yuchuan Tian, Hanting Chen, Mengyu Zheng, Yuchen Liang, Chao Xu, Yunhe Wang,
- Abstract要約: 提案するU-REPAは,U-Net隠蔽状態とViT特徴をブリッジする表現アライメントパラダイムである。
実験により、結果のU-REPAは優れた生成品質を実現し、収束速度を大幅に加速できることが示された。
- 参考スコア(独自算出の注目度): 29.987838381433445
- License:
- Abstract: Representation Alignment (REPA) that aligns Diffusion Transformer (DiT) hidden-states with ViT visual encoders has proven highly effective in DiT training, demonstrating superior convergence properties, but it has not been validated on the canonical diffusion U-Net architecture that shows faster convergence compared to DiTs. However, adapting REPA to U-Net architectures presents unique challenges: (1) different block functionalities necessitate revised alignment strategies; (2) spatial-dimension inconsistencies emerge from U-Net's spatial downsampling operations; (3) space gaps between U-Net and ViT hinder the effectiveness of tokenwise alignment. To encounter these challenges, we propose U-REPA, a representation alignment paradigm that bridges U-Net hidden states and ViT features as follows: Firstly, we propose via observation that due to skip connection, the middle stage of U-Net is the best alignment option. Secondly, we propose upsampling of U-Net features after passing them through MLPs. Thirdly, we observe difficulty when performing tokenwise similarity alignment, and further introduces a manifold loss that regularizes the relative similarity between samples. Experiments indicate that the resulting U-REPA could achieve excellent generation quality and greatly accelerates the convergence speed. With CFG guidance interval, U-REPA could reach $FID<1.5$ in 200 epochs or 1M iterations on ImageNet 256 $\times$ 256, and needs only half the total epochs to perform better than REPA. Codes are available at https://github.com/YuchuanTian/U-REPA.
- Abstract(参考訳): Diffusion Transformer (DiT) とViTビジュアルエンコーダを協調するRepresentation Alignment (REPA) は、DiTトレーニングにおいて非常に有効であることが証明され、優れた収束特性が証明されているが、DiTよりも高速な収束を示す標準拡散U-Netアーキテクチャでは検証されていない。
しかし,REPA を U-Net アーキテクチャに適応させることは,(1) ブロック機能の違いによるアライメント戦略の見直し,(2) 空間次元の不整合が U-Net の空間ダウンサンプリング操作から生じること,(3) U-Net と ViT の空間ギャップがトークンアライメントの有効性を阻害すること,など,ユニークな課題を呈している。
これらの課題に対処するため、U-REPAは、U-Net隠蔽状態とViT機能をブリッジする表現アライメントパラダイムを提案する。
次に,MPPを経由した後にU-Net機能をアップサンプリングする手法を提案する。
第3に、トークン的に類似性アライメントを行う際の困難を観察し、さらに、サンプル間の相対的類似性を規則化する多様体損失を導入する。
実験により、結果のU-REPAは優れた生成品質を実現し、収束速度を大幅に加速できることが示された。
CFG誘導インターバルでは、U-REPAはImageNet 256$\times$256で$FID<1.5$、100Mイテレーションで$FID<1.5$に達することができ、REPAよりパフォーマンスが良くなるには総エポックの半分しか必要としない。
コードはhttps://github.com/YuchuanTian/U-REPAで公開されている。
関連論文リスト
- RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision [7.721101317599364]
本稿では,RT-DETRv3というRT-DETRに基づく階層的な正の監督手法を提案する。
本稿では,デコーダ訓練の不十分さに対処するため,自己意図的摂動を含む新たな学習戦略を提案する。
RT-DETRv3は、RT-DETRシリーズやYOLOシリーズなど、既存のリアルタイム検出器よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-09-13T02:02:07Z) - U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers [28.936553798624136]
本論文では,U-DiTモデルの性能を示すために,一連のU-DiT(U-DiTs)を提案する。
提案されたU-DiTはコスト計算の1/6でDiT-XL/2を上回った。
論文 参考訳(メタデータ) (2024-05-04T18:27:29Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Accelerating DETR Convergence via Semantic-Aligned Matching [50.3633635846255]
本稿では,DTRの精度を犠牲にすることなく,DTRの収束を大幅に加速するセマンティック整合DTRであるSAM-DETRを提案する。
意味整合性マッチングにおいて最も識別性の高い特徴を持つ有能な点を明示的に検索し、収束をさらに高速化し、検出精度も向上する。
論文 参考訳(メタデータ) (2022-03-14T06:50:51Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - RCNet: Reverse Feature Pyramid and Cross-scale Shift Network for Object
Detection [10.847953426161924]
本稿では,RevFP(Reverse Feature Pyramid)とCSN(Cross-scale Shift Network)で構成されるRCNetを提案する。
RevFPは、局所的な双方向特徴融合を利用して、双方向ピラミッド推論パイプラインを簡素化する。
CSNは、隣接レベルと非隣接レベルの両方に直接表現を伝播し、より相関性の高いマルチスケール機能を実現する。
論文 参考訳(メタデータ) (2021-10-23T04:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。