論文の概要: NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
- arxiv url: http://arxiv.org/abs/2512.05106v2
- Date: Sun, 07 Dec 2025 09:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 13:50:38.556813
- Title: NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
- Title(参考訳): NeuralRemaster: 構造を考慮した生成のための相保存拡散
- Authors: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister,
- Abstract要約: 相保存拡散-PDは拡散過程のモデル非依存的な再構成である。
-PDは大きさをランダム化しながら入力フェーズを保存し、アーキテクチャ変更なしに構造整合生成を可能にする。
-PDは推論時間を追加せず、画像やビデオの拡散モデルと互換性がある。
- 参考スコア(独自算出の注目度): 88.09231548061295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our \href{https://yuzeng-at-tri.github.io/ppd-page/}{project page}.
- Abstract(参考訳): 標準拡散は、フーリエ係数がランダムな大きさとランダムな位相を持つガウス雑音を用いてデータを劣化させる。
非条件またはテキスト・ツー・イメージ生成に有効であるが、劣化した位相成分は空間構造を破壊し、再レンダリング、シミュレーションの強化、イメージ・ツー・イメージ変換といった幾何的整合性を必要とするタスクに不適である。
本稿では,モデルに依存しない拡散過程の再構成である位相保存拡散φ-PDを導入し,入力位相のランダム化を図り,構造変化や追加パラメータを伴わない構造整合生成を可能にする。
さらに、単一周波数遮断パラメータによる構造剛性を連続的に制御するFSSノイズを提案する。
φ-PD は推論時間ではなく、画像やビデオの拡散モデルと互換性がある。
フォトリアリスティックでスタイリズされた再レンダリングだけでなく、ドライディングプランナーのためのsim-to-real拡張と同様に、φ-PDは制御可能で空間的に整列した結果を生成する。
CARLAシミュレータに適用すると、φ-PDはCARLAからWaymoまでのプランナー性能を50%改善する。
この方法は既存のコンディショニング手法を補完するもので、画像・画像・ビデオ・ビデオ生成に広く応用できる。
ビデオ、追加の例、コードは、我々の \href{https://yuzeng-at-tri.github.io/ppd-page/}{project page} で見ることができる。
関連論文リスト
- ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion [7.233066974580282]
テキストと画像の拡散モデルは、トレーニングの解像度を超える画像を生成する際に、しばしば劣化した性能を示す。
最近のトレーニングフリーな手法は、この制限を緩和することができるが、かなりの計算を必要とする場合や、最近の拡散変換器モデルと互換性がない場合が多い。
本研究では,事前学習した拡散モデルの解法を,追加の訓練なしに拡張するためのモデル非依存かつ高効率なフレームワークであるScaleDiffを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:17:32Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models [33.372947082734946]
本稿では,NLPで使用されるRWKVモデルに適応した一連のアーキテクチャについて紹介する。
我々のモデルは、追加条件で順序付けされた入力を効率的に処理すると同時に、効果的にスケールアップするように設計されている。
その顕著な利点は空間集約の複雑さの低減であり、高解像度画像の処理に非常に適している。
論文 参考訳(メタデータ) (2024-04-06T02:54:35Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。