論文の概要: Back to Basics: Let Denoising Generative Models Denoise
- arxiv url: http://arxiv.org/abs/2511.13720v1
- Date: Mon, 17 Nov 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.702211
- Title: Back to Basics: Let Denoising Generative Models Denoise
- Title(参考訳): 基本に戻る: 生成モデルにノイズを与える
- Authors: Tianhong Li, Kaiming He,
- Abstract要約: 本稿では,クリーンデータの予測とノイズ量の予測が根本的に異なることを示唆する。
画素上の大きなパッチ変換器は強力な生成モデルであることを示す。
256と512の解像度で、ImageNet上で16と32の大きなパッチサイズを持つJITを用いて、競合する結果を報告した。
- 参考スコア(独自算出の注目度): 25.06508262774815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than "$\textbf{Just image Transformers}$", or $\textbf{JiT}$, as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.
- Abstract(参考訳): 今日のデノナイズド拡散モデルは、古典的な意味では「デノエーズ」ではなく、クリーンなイメージを直接予測するものではない。
むしろ、ニューラルネットワークはノイズまたはノイズ量を予測する。
本稿では,クリーンデータの予測とノイズ量の予測が根本的に異なることを示唆する。
多様体の仮定によれば、自然データは低次元多様体の上に置かれるべきである。
この仮定により、クリーンなデータを直接予測するモデルを提案し、これは明らかに低容量のネットワークが非常に高次元空間で効果的に動作できるようにする。
画素上の単純で大きなパッチ変換器は強力な生成モデルになり得ることを示し、トークン化や事前学習、余分な損失は発生しない。
私たちのアプローチは概念的には、"$\textbf{Just image Transformers}$" あるいは "$\textbf{JiT}$" に過ぎません。
256 と 512 の解像度で ImageNet 上で 16 と 32 のパッチサイズを持つ JiT を用いて,高次元雑音量の予測が破滅的に失敗する可能性があることを報告した。
ネットワークを多様体の基本にマッピングすることで、我々の研究は基本に遡り、トランスフォーマーに基づく生の自然データへの拡散のための自己完結したパラダイムを追求する。
関連論文リスト
- Distribution-Aware Tensor Decomposition for Compression of Convolutional Neural Networks [4.322339935902436]
テンソル化と低ランク表現による圧縮に焦点を当てる。
関数空間の誤差を測定するために、データインフォームドノルムを使用します。
従来の圧縮パイプラインとは異なり、データインフォームドアプローチは微調整なしで競争精度を達成できることが多い。
論文 参考訳(メタデータ) (2025-11-06T16:15:15Z) - Diffuse and Disperse: Image Generation with Representation Regularization [23.413550999126173]
拡散に基づく生成モデルを効果的に改善するプラグイン・アンド・プレイ・レギュレータである textitDispersive Loss を提案する。
我々の損失関数は、内部表現が、対照的な自己教師付き学習に類似した隠れ空間に分散することを奨励する。
最近の表現アライメント法(REPA)と比較して、我々のアプローチは自己完結型で最小限であり、事前学習も追加パラメータも外部データも必要としない。
論文 参考訳(メタデータ) (2025-06-10T17:53:29Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Reverse Knowledge Distillation: Training a Large Model using a Small One
for Retinal Image Matching on Limited Data [1.9521342770943706]
限られたデータで大規模モデルを訓練するための逆知識蒸留に基づく新しい手法を提案する。
我々は、より軽量なCNNモデルを用いて、視覚変換器エンコーダに基づく計算的に重いモデルを訓練する。
実験結果から,表現空間における高次元フィッティングは,最終出力に適合するトレーニングと異なり,過度な適合を防止できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-20T08:39:20Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - Towards Understanding the Impact of Model Size on Differential Private
Classification [18.528062386007328]
一般化の観点から高次元DP学習について検討する。
DPノイズが小さい単純なガウスモデルの場合、次元が十分大きい場合、分類誤差はランダムな推定値と同程度に悪いことが示される。
分類精度とプライバシ保護をトレードオフする新しい指標に基づいて,モデルのサイズを小さくする特徴選択手法を提案する。
論文 参考訳(メタデータ) (2021-11-27T13:34:06Z) - Deep Neural Networks are Surprisingly Reversible: A Baseline for
Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。
ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文 参考訳(メタデータ) (2021-07-13T18:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。