論文の概要: ReDDiT: Rehashing Noise for Discrete Visual Generation
- arxiv url: http://arxiv.org/abs/2505.19656v2
- Date: Thu, 29 May 2025 15:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.729428
- Title: ReDDiT: Rehashing Noise for Discrete Visual Generation
- Title(参考訳): ReDDiT:離散的な視覚生成のためのノイズ除去
- Authors: Tianren Ma, Xiaosong Zhang, Boyu Yang, Junlan Feng, Qixiang Ye,
- Abstract要約: 本稿では,離散拡散変圧器(ReDDiT)の吸音状態を拡張し,離散拡散モデルの表現能力を向上させるために,離散拡散変圧器(ReDDiT)のリハッシングノイズフレームワークを提案する。
実験により、ReDDiTはベースライン(gFIDを6.18から1.61に還元する)を著しく上回り、高い効率で連続するものと同等であることが示された。
- 参考スコア(独自算出の注目度): 41.72349583047408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion models are gaining traction in the visual generative area for their efficiency and compatibility. However, the pioneered attempts still fall behind the continuous counterparts, which we attribute to the noise (absorbing state) design and sampling heuristics. In this study, we propose the rehashing noise framework for discrete diffusion transformer, termed ReDDiT, to extend absorbing states and improve expressive capacity of discrete diffusion models. ReDDiT enriches the potential paths that latent variables can traverse during training with randomized multi-index corruption. The derived rehash sampler, which reverses the randomized absorbing paths, guarantees the diversity and low discrepancy of the generation process. These reformulations lead to more consistent and competitive generation quality, mitigating the need for heavily tuned randomness. Experiments show that ReDDiT significantly outperforms the baseline (reducing gFID from 6.18 to 1.61) and is on par with the continuous counterparts with higher efficiency.
- Abstract(参考訳): 離散拡散モデルは、その効率性と互換性のために、視覚的生成領域において牽引力を高めている。
しかし、先駆的な試みはいまだに、ノイズ(吸収状態)設計とサンプリングヒューリスティック(英語版)による連続的な試みに遅れを取っている。
本研究では,ReDDiTと呼ばれる離散拡散変圧器用リハッシングノイズフレームワークを提案し,吸収状態を拡張し,離散拡散モデルの表現能力を向上させる。
ReDDiTは、ランダム化されたマルチインデックスの破損でトレーニング中に潜在変数がトラバースできる潜在的なパスを豊かにする。
導出されたリハッシュサンプリングは、ランダム化された吸収経路を反転させ、生成過程の多様性と低相違を保証する。
これらの改革により、より一貫性があり競争力のある生成品質が得られ、高度に調整されたランダム性の必要性が軽減される。
実験により、ReDDiTはベースライン(gFIDを6.18から1.61に還元する)を著しく上回り、高い効率で連続するものと同等であることが示された。
関連論文リスト
- RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。
本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:28:19Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Diffusion-GAN: Training GANs with Diffusion [135.24433011977874]
GAN(Generative Adversarial Network)は、安定してトレーニングすることが難しい。
フォワード拡散チェーンを利用してインスタンスノイズを生成する新しいGANフレームワークであるDiffusion-GANを提案する。
我々は,Diffusion-GANにより,最先端のGANよりも高い安定性とデータ効率で,よりリアルな画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-06-05T20:45:01Z) - Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial
Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。
我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。
提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-02-19T20:18:49Z) - Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models
for Inverse Problems through Stochastic Contraction [31.61199061999173]
拡散モデルには重要な欠点がある。純粋なガウスノイズから画像を生成するために数千ステップの反復を必要とするため、サンプリングが本質的に遅い。
ガウスノイズから始めることは不要であることを示す。代わりに、より優れた初期化を伴う単一前方拡散から始めると、逆条件拡散におけるサンプリングステップの数を大幅に減少させる。
ComeCloser-DiffuseFaster (CCDF)と呼ばれる新しいサンプリング戦略は、逆問題に対する既存のフィードフォワードニューラルネットワークアプローチが拡散モデルと相乗的に組み合わせられる方法について、新たな洞察を明らかにしている。
論文 参考訳(メタデータ) (2021-12-09T04:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。