論文の概要: Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability
- arxiv url: http://arxiv.org/abs/2505.03097v1
- Date: Tue, 06 May 2025 01:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.155315
- Title: Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability
- Title(参考訳): すべてのパラメータが重要ではない: 生成能力を高めるためのマスキング拡散モデル
- Authors: Lei Wang, Senmao Li, Fei Yang, Jianye Wang, Ziheng Zhang, Yuhan Liu, Yaxing Wang, Jian Yang,
- Abstract要約: MaskUNetは、パラメータ番号を無視して生成品質を向上する、単純で効果的なメソッド式MaskUNet'-である。
トレーニングベースのアプローチと、カスタマイズされたネットワークと最適化機能を含むトレーニングなしアプローチの2つの微調整戦略を提供します。
COCOデータセット上のゼロショット推論では、MaskUNetは最高のFIDスコアを獲得し、下流タスク評価におけるその効果をさらに示す。
- 参考スコア(独自算出の注目度): 34.888135351211616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diffusion models, in early stages focus on constructing basic image structures, while the refined details, including local features and textures, are generated in later stages. Thus the same network layers are forced to learn both structural and textural information simultaneously, significantly differing from the traditional deep learning architectures (e.g., ResNet or GANs) which captures or generates the image semantic information at different layers. This difference inspires us to explore the time-wise diffusion models. We initially investigate the key contributions of the U-Net parameters to the denoising process and identify that properly zeroing out certain parameters (including large parameters) contributes to denoising, substantially improving the generation quality on the fly. Capitalizing on this discovery, we propose a simple yet effective method-termed ``MaskUNet''- that enhances generation quality with negligible parameter numbers. Our method fully leverages timestep- and sample-dependent effective U-Net parameters. To optimize MaskUNet, we offer two fine-tuning strategies: a training-based approach and a training-free approach, including tailored networks and optimization functions. In zero-shot inference on the COCO dataset, MaskUNet achieves the best FID score and further demonstrates its effectiveness in downstream task evaluations. Project page: https://gudaochangsheng.github.io/MaskUnet-Page/
- Abstract(参考訳): 拡散モデルは初期段階において基本像構造の構築に焦点をあて、局所的な特徴やテクスチャを含む精細な細部は後段に生成する。
したがって、同じネットワーク層は、異なるレイヤでイメージセマンティック情報をキャプチャまたは生成する従来のディープラーニングアーキテクチャ(ResNetやGANなど)とは大きく異なり、構造的およびテクスチャ的両方の情報を同時に学習せざるを得ない。
この違いは、時間的拡散モデルを探究するきっかけとなった。
まず,U-Netパラメータの偏極過程に対する重要な寄与について検討し,特定のパラメータ(大きなパラメータを含む)を適切にゼロにすることは,偏極化に寄与し,ハエの発生品質が著しく向上することを確認した。
この発見に乗じて,パラメータ数を無視して生成品質を向上する,単純かつ効果的に決定された `MaskUNet'' を提案する。
提案手法は時間とサンプルに依存した有効U-Netパラメータをフル活用する。
MaskUNetを最適化するために、トレーニングベースのアプローチと、カスタマイズされたネットワークと最適化機能を含むトレーニングなしアプローチの2つの微調整戦略を提供する。
COCOデータセットのゼロショット推論では、MaskUNetは最高のFIDスコアを獲得し、下流タスク評価におけるその効果をさらに示す。
プロジェクトページ:https://gudaochangsheng.github.io/MaskUnet-Page/
関連論文リスト
- Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。
タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。
最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文 参考訳(メタデータ) (2025-02-27T08:20:03Z) - DepthMaster: Taming Diffusion Models for Monocular Depth Estimation [41.81343543266191]
識別深度推定タスクに生成的特徴を適応する単一ステップ拡散モデルを提案する。
2つのモジュールの可能性を完全に活用するために、2段階のトレーニング戦略を採用しています。
本モデルでは, 一般化と詳細保存の観点から最先端の性能を達成し, 各種データセット間の拡散に基づく他の手法よりも優れる。
論文 参考訳(メタデータ) (2025-01-05T15:18:32Z) - A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。
第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。
第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。
我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文 参考訳(メタデータ) (2024-08-05T05:33:59Z) - PRISTA-Net: Deep Iterative Shrinkage Thresholding Network for Coded
Diffraction Patterns Phase Retrieval [6.982256124089]
位相検索は、計算画像および画像処理における非線型逆問題である。
我々は,1次反復しきい値しきい値アルゴリズム(ISTA)に基づく深層展開ネットワークであるPRISTA-Netを開発した。
非線形変換,しきい値,ステップサイズなど,提案するPRISTA-Netフレームワークのパラメータはすべて,設定されるのではなく,エンドツーエンドで学習される。
論文 参考訳(メタデータ) (2023-09-08T07:37:15Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - SiPRNet: End-to-End Learning for Single-Shot Phase Retrieval [8.820823270160695]
畳み込みニューラルネットワーク(CNN)は、様々な画像再構成タスクにおいて重要な役割を果たしている。
本稿では,1つのフーリエ強度測定から信号を取得するために,SiPRNetという新しいCNN構造を設計する。
提案手法は、シングルショットマスクレス位相検索において、他のCNNおよび従来の最適化手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-23T16:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。