論文の概要: RaPD: Resolution-Agnostic Pixel Diffusion via Semantics-Enriched Implicit Representations
- arxiv url: http://arxiv.org/abs/2605.15908v1
- Date: Fri, 15 May 2026 12:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.284227
- Title: RaPD: Resolution-Agnostic Pixel Diffusion via Semantics-Enriched Implicit Representations
- Title(参考訳): RaPD:Semantics-Enriched Implicit Representationによる解像度非依存的画素拡散
- Authors: Yanhao Ge, Shanyan Guan, Weihao Wang, Ying Tai, Mingyu You,
- Abstract要約: 連続したニューラルネットワークは解像度のないレンダリングを可能にするが、以前の手法では、Nature Pixelモジュールとしてデコード段階でのみ継続性を導入する。
連続型ニューラルイメージ場(NIF)潜在空間で拡散を行うRADを提案する。
実験は、より優れた生成品質と解像度のスケーラビリティを示す。
- 参考スコア(独自算出の注目度): 33.8420570329911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural images are continuous, yet most generative models synthesize them on discrete grids, limiting resolution-flexible generation. Continuous neural fields enable resolution-free rendering, but prior methods introduce continuity only at the decoding stage as an interpolation module, leaving the generative latent space discretized and reconstruction-oriented. We propose RaPD (Resolution-agnostic Pixel Diffusion), which performs diffusion in a continuous Neural Image Field (NIF) latent space. RaPD bridges this reconstruction-generation gap with Semantic Representation Guidance for generation-aware latent learning and a Coordinate-Queried Attention Renderer for coordinate-conditioned, scale-aware rendering. A single denoised latent can be rendered at arbitrary resolutions by changing only the query coordinates, keeping diffusion cost fixed. Experiments demonstrate superior generation quality and resolution scalability.
- Abstract(参考訳): 自然画像は連続であるが、ほとんどの生成モデルは離散格子上でそれらを合成し、解像度フレキシブルな生成を制限する。
連続したニューラルネットワークは解像度のないレンダリングを可能にするが、以前の手法は補間モジュールとしてデコード段階でのみ連続性を導入し、生成的潜在空間を離散化して再構成指向にする。
連続型ニューラルイメージフィールド(NIF)潜時空間で拡散を行うRAD(Resolution-Agnostic Pixel Diffusion)を提案する。
RaPDは、世代対応の潜在学習のためのセマンティック表現誘導と、座標条件付きスケール対応レンダリングのためのコーディネート・クェリド・アテンション・レンダとの再構成世代間ギャップを橋渡しする。
クエリ座標だけを変更し、拡散コストを一定に保つことで、任意の解像度で単一の復号化ラテントをレンダリングすることができる。
実験は、より優れた生成品質と解像度のスケーラビリティを示す。
関連論文リスト
- Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation [36.41177812868683]
遅延拡散モデルは高品質な画像を生成するのに優れるが、エンドツーエンドのモデリングの利点は失われる。
本稿では,生の自然画像上での潜伏拡散の効率性を実現するため,既存のアーキテクチャを簡易に修正した潜伏強制法を提案する。
Latent Forcingは、我々の計算スケールで拡散トランスフォーマーベースのピクセル生成のための新しい最先端を実現する。
論文 参考訳(メタデータ) (2026-02-11T22:09:58Z) - PosDiffAE: Position-aware Diffusion Auto-encoder For High-Resolution Brain Tissue Classification Incorporating Artifact Restoration [0.5442686600296733]
脳画像における領域特異的な細胞パターンを認識するために,拡散自己符号化モデルの潜時空間を構造化する機構を考案する。
また,非教師付き催涙物復元手法を考案し,推論時の潜伏表現と拡散モデルの制約付き生成能力を利用した。
論文 参考訳(メタデータ) (2025-07-03T07:58:53Z) - LatentINDIGO: An INN-Guided Latent Diffusion Algorithm for Image Restoration [19.74964267336191]
本研究では,ウェーブレットにインスパイアされたインバータブルニューラルネットワーク(INN)を導入し,フォワード変換により劣化をシミュレートし,逆変換により失われた詳細を再構成する。
提案アルゴリズムは, 合成および実世界の低画質画像に対して, 最先端の性能を達成し, 任意の出力サイズに容易に適応できる。
論文 参考訳(メタデータ) (2025-05-19T10:17:16Z) - Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling [50.34513854725803]
Arbitrary-scale Super- resolution (ASSR) は、低解像度(LR)入力から任意のアップサンプリング係数で高解像度(HR)イメージを再構成することを目的としている。
本稿では,Gaussian Splattingを用いたLR画像から2次元連続HR信号を明示的に再構成する,Pixel-to-Gaussianパラダイムを用いた新しいContinuousSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-09T13:43:57Z) - Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。
潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。
これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文 参考訳(メタデータ) (2024-03-14T12:58:28Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Thera: Aliasing-Free Arbitrary-Scale Super-Resolution with Neural Heat Fields [57.61024735931613]
任意のスケールの単一画像超解像(ASR)に対する最近のアプローチでは、任意の解像度でサンプリングできる連続的な信号を表現するためにニューラルネットワークを使用している。
既存の方法は、各スケーリング係数における場の積分バージョンを近似し、忠実さと一般化の両方を補うことによって、これを緩和しようとする。
物理的に正確なPSFをモデル化する新しい神経場定式化であるニューラルヒートフィールドを導入する。
我々の定式化は、任意の所望の出力解像度で分析的に正しいアンチエイリアスを可能にする。
論文 参考訳(メタデータ) (2023-11-29T14:01:28Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。