論文の概要: SHARP: Spectrum-aware Highly-dynamic Adaptation for Resolution Promotion in Remote Sensing Synthesis
- arxiv url: http://arxiv.org/abs/2603.21783v1
- Date: Mon, 23 Mar 2026 10:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.606249
- Title: SHARP: Spectrum-aware Highly-dynamic Adaptation for Resolution Promotion in Remote Sensing Synthesis
- Title(参考訳): SHARP:リモートセンシング合成における分解能向上のためのスペクトル対応高ダイナミック適応
- Authors: Bingxuan Zhao, Qing Zhou, Chuang Yang, Qi Wang,
- Abstract要約: リモートセンシング画像は、車両、建物輪郭、道路標識などの空撮リアリズムに不可欠な微細構造を符号化する。
Rotary Position Embedding (RoPE) 再スケーリングによるトレーニング不要の解決促進は、実用的な対策を提供するが、既存の方法はすべて、デノナイジングプロセス全体を通して静的な位置スケーリングルールを適用している。
有理分数時間スケジュールk_rs(t)をRoPEに導入する訓練自由手法であるSHARP(Spectrum-aware Highly-dynamic Adaptation for Resolution promoted)を提案する。
- 参考スコア(独自算出の注目度): 14.489371802189426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation powered by Diffusion Transformers (DiTs) has made remarkable strides, yet remote sensing (RS) synthesis lags behind due to two barriers: the absence of a domain-specialized DiT prior and the prohibitive cost of training at the large resolutions that RS applications demand. Training-free resolution promotion via Rotary Position Embedding (RoPE) rescaling offers a practical remedy, but every existing method applies a static positional scaling rule throughout the denoising process. This uniform compression is particularly harmful for RS imagery, whose substantially denser medium- and high-frequency energy encodes the fine structures critical for aerial-scene realism, such as vehicles, building contours, and road markings. Addressing both challenges requires a domain-specialized generative prior coupled with a denoising-aware positional adaptation strategy. To this end, we fine-tune FLUX on over 100,000 curated RS images to build a strong domain prior (RS-FLUX), and propose Spectrum-aware Highly-dynamic Adaptation for Resolution Promotion (SHARP), a training-free method that introduces a rational fractional time schedule k_rs(t) into RoPE. SHARP applies strong positional promotion during the early layout-formation stage and progressively relaxes it during detail recovery, aligning extrapolation strength with the frequency-progressive nature of diffusion denoising. Its resolution-agnostic formulation further enables robust multi-scale generation from a single set of hyperparameters. Extensive experiments across six square and rectangular resolutions show that SHARP consistently outperforms all training-free baselines on CLIP Score, Aesthetic Score, and HPSv2, with widening margins at more aggressive extrapolation factors and negligible computational overhead. Code and weights are available at https://github.com/bxuanz/SHARP.
- Abstract(参考訳): Diffusion Transformers (DiTs) を利用したテキスト・ツー・イメージ生成は、ドメイン特化されたDiTが存在しないことと、RSアプリケーションが要求する大規模な解像度でのトレーニングの禁止コストという2つの障壁により、顕著な進歩を遂げた。
Rotary Position Embedding (RoPE) 再スケーリングによるトレーニング不要の解決促進は、実用的な対策を提供するが、既存の方法はすべて、デノナイジングプロセス全体を通して静的な位置スケーリングルールを適用している。
この一様圧縮はRS画像にとって特に有害であり、中・高周波のエネルギーは、車両、建物輪郭、道路標識などの空中現実主義に不可欠な微細構造をコード化している。
両方の課題に対処するためには、ドメイン特化生成の事前と、デノナイジング対応の位置適応戦略が必要である。
この目的のために,10万以上のキュレートされたRS画像に対してFLUXを微調整し,強いドメイン事前(RS-FLUX)を構築するとともに,RPEに有意な分数スケジュールk_rs(t)を導入する訓練不要な手法であるスペクトル対応高ダイナミック適応分解促進法(SHARP)を提案する。
SHARPは、初期の配置形成段階で強い位置促進を施し、細部回復の過程で徐々に緩める。
その分解能に依存しない定式化により、単一のハイパーパラメータ集合から堅牢なマルチスケール生成が可能になる。
SHARPはCLIP Score、Aesthetic Score、HPSv2のトレーニングなしベースラインを一貫して上回り、より積極的な外挿係数と無視できない計算オーバーヘッドでマージンを広げている。
コードとウェイトはhttps://github.com/bxuanz/SHARP.comで入手できる。
関連論文リスト
- Joint Degradation-Aware Arbitrary-Scale Super-Resolution for Variable-Rate Extreme Image Compression [28.21479870337623]
ASSR-EICは可変レートの極端な画像圧縮をサポートする新しい画像圧縮フレームワークである。
我々は、再構成を導く前に圧縮と再スケーリングを意識した拡散を利用して、高い忠実性と高いリアリズムの回復をもたらす。
論文 参考訳(メタデータ) (2026-03-18T06:35:53Z) - Latent Harmony: Synergistic Unified UHD Image Restoration via Latent Space Regularization and Controllable Refinement [89.99237142387655]
LH-VAEを導入し、視覚的意味的制約や進行的劣化による意味的堅牢性を高める。
Latent Harmonyは、UHD修復のためのVAEを再定義する2段階のフレームワークである。
実験により、Latent HarmonyはUHDおよび標準解像度タスクにまたがって最先端のパフォーマンスを実現し、効率、知覚品質、再現精度を効果的にバランスさせることが示されている。
論文 参考訳(メタデータ) (2025-10-09T08:54:26Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - AdaptSR: Low-Rank Adaptation for Efficient and Scalable Real-World Super-Resolution [50.584551250242235]
AdaptSRは、現実世界のタスクにバイキュービックトレーニングされたSRモデルを効率的に再利用する低ランク適応フレームワークである。
実験の結果,AdaptSRはPSNRで最大4dB,実際のSRベンチマークで2%,GAN法と拡散型SR法より優れていた。
論文 参考訳(メタデータ) (2025-03-10T18:03:18Z) - WaveDiffUR: A diffusion SDE-based solver for ultra magnification super-resolution in remote sensing images [2.7830219396433704]
本稿では,ウェーブレット領域拡散URソルバであるWaveDiffURを導入し,UR過程を条件付きウェーブレット成分に対処するシーケンシャルサブプロセスに分解する。
WaveDiffURは、訓練済みSRモデルをプラグ・アンド・プレイモジュールとして組み込むことで、低周波の詳細(グローバル整合性を保証する)と高周波成分(局所忠実性を高める)を反復的に再構築する。
固定境界条件の限界を極端に拡大するために,クロススケールピラミッド (CSP) フレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-25T22:26:39Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。