論文の概要: Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank
- arxiv url: http://arxiv.org/abs/2512.08648v2
- Date: Sat, 13 Dec 2025 12:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 13:08:04.440864
- Title: Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank
- Title(参考訳): Repulsor: 対照的なメモリバンクによる生成モデリングの高速化
- Authors: Shaofeng Zhang, Xuanqi Chen, Ning Liao, Haoxiang Zhao, Xiaoxing Wang, Haoru Tan, Sitong Wu, Xiaosong Jia, Qi Fan, Junchi Yan,
- Abstract要約: mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
- 参考スコア(独自算出の注目度): 65.00301565190824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominance of denoising generative models (e.g., diffusion, flow-matching) in visual synthesis is tempered by their substantial training costs and inefficiencies in representation learning. While injecting discriminative representations via auxiliary alignment has proven effective, this approach still faces key limitations: the reliance on external, pre-trained encoders introduces overhead and domain shift. A dispersed-based strategy that encourages strong separation among in-batch latent representations alleviates this specific dependency. To assess the effect of the number of negative samples in generative modeling, we propose {\mname}, a plug-and-play training framework that requires no external encoders. Our method integrates a memory bank mechanism that maintains a large, dynamically updated queue of negative samples across training iterations. This decouples the number of negatives from the mini-batch size, providing abundant and high-quality negatives for a contrastive objective without a multiplicative increase in computational cost. A low-dimensional projection head is used to further minimize memory and bandwidth overhead. {\mname} offers three principal advantages: (1) it is self-contained, eliminating dependency on pretrained vision foundation models and their associated forward-pass overhead; (2) it introduces no additional parameters or computational cost during inference; and (3) it enables substantially faster convergence, achieving superior generative quality more efficiently. On ImageNet-256, {\mname} achieves a state-of-the-art FID of \textbf{2.40} within 400k steps, significantly outperforming comparable methods.
- Abstract(参考訳): 視覚合成における生成モデル(例えば拡散,フローマッチング)の認知の優位性は,表現学習におけるトレーニングコストと非効率性によって評価される。
補助的なアライメントを通じて差別表現を注入することは有効であると証明されているが、このアプローチは依然として重要な制限に直面している。
バッチ内の潜在表現間の強い分離を促進する分散ベースの戦略は、この特定の依存関係を緩和する。
生成モデルにおける負のサンプル数の影響を評価するために,外部エンコーダを必要としないプラグアンドプレイトレーニングフレームワークである {\mname} を提案する。
提案手法は,トレーニング繰り返しにまたがって,大規模で動的に更新される負のサンプルのキューを保持するメモリバンク機構を統合する。
これにより、最小バッチサイズから負の数を分離し、計算コストの乗法的増加を伴わずに、対照的な目的に対して豊富な高品質な負の値を与える。
低次元プロジェクションヘッドは、メモリと帯域幅のオーバーヘッドをさらに最小化するために使用される。
1つは自己完結型であり、事前学習された視覚基盤モデルとその関連する前方通過オーバーヘッドへの依存を排除し、(2)推論中に追加のパラメータや計算コストを導入せず、(3)より効率的な生成品質を実現することができる。
ImageNet-256 では、mname は 400k ステップで \textbf{2.40} の最先端 FID を達成する。
関連論文リスト
- Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - CRISP: Clustering Multi-Vector Representations for Denoising and Pruning [7.580000668015255]
ColBERTのようなマルチベクターモデルは、コンテキスト化されたトークンレベルの埋め込みによってクエリやドキュメントを表現することによって、最先端のパフォーマンスを提供する。
このオーバーヘッドを軽減するための一般的なアプローチは、モデルのフリーズベクターをクラスタ化することであるが、この戦略の有効性は、これらの埋め込みの固有のクラスタビリティによって制限される。
本稿では,エンドツーエンドのトレーニングプロセス内で,本質的にクラスタリング可能な表現を直接学習する,新しいマルチベクタトレーニング手法CRISPを紹介する。
論文 参考訳(メタデータ) (2025-05-16T17:26:16Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models [32.33892531885448]
MLLM(Multimodal large language model)は、視覚的タスクにまたがる強力なパフォーマンスを示す。
しかし、それらの効率は、マルチモーダル入力で長いコンテキストを処理することによる計算とメモリの要求によって妨げられている。
PAR(Prompt-Aware Token Reduction)は,モデルの性能を損なうことなく,視覚トークンを効率よく削減する新しい,プラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2024-10-09T07:13:22Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Efficient Iterative Amortized Inference for Learning Symmetric and
Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。
対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。
標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文 参考訳(メタデータ) (2021-06-07T14:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。