論文の概要: LayerSync: Self-aligning Intermediate Layers
- arxiv url: http://arxiv.org/abs/2510.12581v1
- Date: Tue, 14 Oct 2025 14:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.35516
- Title: LayerSync: Self-aligning Intermediate Layers
- Title(参考訳): LayerSync: 自己調整型の中間層
- Authors: Yasaman Haghighi, Bastien van Delft, Mariam Hassan, Alexandre Alahi,
- Abstract要約: 拡散モデルの生成品質とトレーニング効率を改善するためのドメインに依存しないアプローチであるLayerSyncを提案する。
当社のアプローチであるLayerSyncは,拡散モデルトレーニングのオーバーヘッドを伴わない,自己充足的でプラグアンドプレイの正規化ツールである。
本手法を広範に評価し,音声,ビデオ,モーション生成などの他の領域に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 66.14119485147891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose LayerSync, a domain-agnostic approach for improving the generation quality and the training efficiency of diffusion models. Prior studies have highlighted the connection between the quality of generation and the representations learned by diffusion models, showing that external guidance on model intermediate representations accelerates training. We reconceptualize this paradigm by regularizing diffusion models with their own intermediate representations. Building on the observation that representation quality varies across diffusion model layers, we show that the most semantically rich representations can act as an intrinsic guidance for weaker ones, reducing the need for external supervision. Our approach, LayerSync, is a self-sufficient, plug-and-play regularizer term with no overhead on diffusion model training and generalizes beyond the visual domain to other modalities. LayerSync requires no pretrained models nor additional data. We extensively evaluate the method on image generation and demonstrate its applicability to other domains such as audio, video, and motion generation. We show that it consistently improves the generation quality and the training efficiency. For example, we speed up the training of flow-based transformer by over 8.75x on ImageNet dataset and improved the generation quality by 23.6%. The code is available at https://github.com/vita-epfl/LayerSync.
- Abstract(参考訳): 拡散モデルの生成品質とトレーニング効率を改善するためのドメインに依存しないアプローチであるLayerSyncを提案する。
従来の研究では、生成の質と拡散モデルで学習した表現との関係が強調されており、モデル中間表現に対する外部ガイダンスがトレーニングを加速していることが示されている。
我々は、このパラダイムを、自身の中間表現で拡散モデルを正規化することによって再認識する。
表現の質が拡散モデル層によって異なるという観察に基づいて、最も意味的に豊かな表現は、より弱い表現に対する本質的なガイダンスとして機能し、外部監視の必要性を減らすことができることを示す。
当社のアプローチであるLayerSyncは,拡散モデルトレーニングのオーバーヘッドがなく,視覚領域を超えて他のモダリティに一般化した,自己充足的でプラグアンドプレイな正規化語です。
LayerSyncは事前訓練されたモデルや追加データを必要としない。
本手法を広範に評価し,音声,ビデオ,モーション生成などの他の領域に適用可能であることを示す。
生成品質とトレーニング効率を継続的に向上することを示す。
例えば、ImageNetデータセットでは、フローベースのトランスフォーマーのトレーニングを8.75倍高速化し、生成品質を23.6%向上しました。
コードはhttps://github.com/vita-epfl/LayerSyncで入手できる。
関連論文リスト
- FideDiff: Efficient Diffusion Model for High-Fidelity Image Motion Deblurring [33.809728459395785]
FideDiffは、高忠実度デブロアリング用に設計された新しい単一ステップ拡散モデルである。
我々は、各タイムステップが徐々にぼやけた画像を表す拡散のようなプロセスとして、動きのデブロアリングを再構成する。
一致したぼやけた軌跡でトレーニングデータを再構成することにより、モデルは時間的一貫性を学習し、正確なワンステップのデブロワーを可能にする。
論文 参考訳(メタデータ) (2025-10-02T03:44:45Z) - Learning Diffusion Models with Flexible Representation Guidance [49.26046407886349]
本稿では,表現指導を拡散モデルに組み込むための体系的枠組みを提案する。
拡散モデルにおける表現アライメントを強化するための2つの新しい戦略を導入する。
画像、タンパク質配列、分子生成タスクにわたる実験は、優れた性能を示し、訓練を加速する。
論文 参考訳(メタデータ) (2025-07-11T19:29:02Z) - Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [118.52589065972795]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - USP: Unified Self-Supervised Pretraining for Image Generation and Understanding [15.717333276867462]
Unified Self-supervised Pretraining (USP) は、変分オートエンコーダ(VAE)潜時空間におけるマスク付き潜時モデリングにより拡散モデルを初期化するフレームワークである。
USPは、拡散モデルの収束速度と生成品質を大幅に改善しながら、理解タスクにおいて同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-08T09:01:03Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。