論文の概要: Edge-Cloud Collaborative Reconstruction via Structure-Aware Latent Diffusion for Downstream Remote Sensing Perception
- arxiv url: http://arxiv.org/abs/2604.25319v1
- Date: Tue, 28 Apr 2026 07:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.759743
- Title: Edge-Cloud Collaborative Reconstruction via Structure-Aware Latent Diffusion for Downstream Remote Sensing Perception
- Title(参考訳): 下流リモートセンシング知覚のための構造認識潜在拡散によるエッジクラウド協調再構築
- Authors: Yun Li, Xianju Li,
- Abstract要約: 高解像度リモートセンシングデータは、衛星間通信において深刻なボトルネックに直面している。
本研究では,非対称なエッジクラウド協調SRシステムであるStructure-Aware Latent Diffusion (SALD) フレームワークを提案する。
極端帯域制限下では、SALDは知覚品質(LPIPS)が優れ、シーン分類と小ターゲット検出の両方において、下流性能を大幅に向上する。
- 参考スコア(独自算出の注目度): 6.402472465609055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential surge in high-resolution remote sensing data faces a severe bottleneck in satellite-to-ground transmission. Limited downlink bandwidth forces the use of extreme high-ratio compression, which irreversibly destroys high-frequency structural details essential for downstream machine perception tasks like object detection. While current super-resolution techniques attempt to recover these details, regression-based methods often yield over-smoothed textures, and generative diffusion models frequently introduce structural hallucinations that mislead detection systems. To address this trade-off, we propose the Structure-Aware Latent Diffusion (SALD) framework, an asymmetric edge-cloud collaborative SR system. At the resource-constrained edge, the system decouples imagery into a highly compressed low-frequency payload and a lightweight soft structural prior. Transmitting this decoupled representation minimizes bandwidth consumption. On the powerful cloud side, we introduce a Structure-Gated Large Kernel (SGLK) module and a Semantic-Guidance Engine (SGE) within the diffusion backbone. These modules leverage the transmitted structural priors to gate large-kernel convolutions, effectively capturing long-range dependencies inherent in aerial scenes while actively suppressing generative hallucinations. Extensive experiments on both the MSCM and UCMerced datasets demonstrate that, even under extreme bandwidth constraints, SALD achieves superior perceptual quality (LPIPS) and significantly enhances downstream performance in both scene classification and small-target detection.
- Abstract(参考訳): 高解像度リモートセンシングデータの急激な急増は、衛星から地上への送信において深刻なボトルネックに直面している。
限られたダウンリンク帯域幅は極端な高比圧縮を強制し、オブジェクト検出のような下流マシン認識タスクに不可欠な高周波構造の詳細を不可逆的に破壊する。
現在の超解像法はこれらの細部を復元しようとするが、回帰に基づく手法は過度に平滑なテクスチャを生じることが多く、生成拡散モデルは検出システムに誤解をもたらす構造幻覚をしばしば導入する。
このトレードオフに対処するため,非対称エッジクラウド協調SRシステムであるStructure-Aware Latent Diffusion (SALD) フレームワークを提案する。
資源制約されたエッジでは、システムは画像を高度に圧縮された低周波ペイロードと軽量なソフト構造に分離する。
この分離された表現を送信することは、帯域消費を最小限にする。
強力なクラウド側では,拡散バックボーン内にStructure-Gated Large Kernel (SGLK)モジュールとSemantic-Guidance Engine (SGE)を導入する。
これらのモジュールは送信された構造的前駆体を利用して大きなカーネルの畳み込みをゲートし、空中シーンに固有の長距離依存関係を効果的に捕捉し、生成幻覚を積極的に抑制する。
MSCMとUCMercedデータセットの大規模な実験により、極端な帯域制限下であっても、SALDは知覚品質(LPIPS)が優れていることが示され、シーン分類と小ターゲット検出の両方において、ダウンストリーム性能が著しく向上する。
関連論文リスト
- ZID-Net: Zero-Inference Diffusion Prior Decoupling Network for Single Image Dehazing [10.634107398163676]
単一画像のデハージングは、回復品質と計算効率のトレードオフによって制約されることが多い。
ZID-Netは、フィードフォワード推論から拡散監視を明示的に分離する新しいフレームワークである。
ZID-Netは、合成RESIDEデータセット上で40.75dBのPSNRを達成し、実世界のデータセットで1.13dBのゲインで既存のメソッドを上回ります。
論文 参考訳(メタデータ) (2026-04-26T13:44:25Z) - Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation [13.846515413602722]
組込みデバイスとエッジデバイスのための軽量かつ効率的なグロッティ検出フレームワークであるMobile GlottisNetを提案する。
このモデルには構造的認識と空間的アライメント機構が含まれており、複雑な解剖学的および視覚的条件下でのロバストな声門局在を可能にする。
実験の結果,PIDデータセットと臨床データセットの両方で5MB程度の大きさのモデルでは,デバイス上で62FPS以上,エッジプラットフォーム上で33FPS以上の推論速度が得られた。
論文 参考訳(メタデータ) (2026-03-08T13:36:18Z) - Disentangled Textual Priors for Diffusion-based Image Super-Resolution [41.71306518338786]
Image Super-Resolutionは、劣化した低解像度入力から高解像度画像を再構成することを目的としている。
既存のアプローチは、グローバルなレイアウトとローカルな詳細を混ぜ合わせた、絡み合った、あるいは粗い粒度の前のものに依存することが多い。
DTPSRは,2つの相補的な次元に絡み合ったテキストの先行処理を導入する新しい拡散型SRフレームワークである。
論文 参考訳(メタデータ) (2026-03-08T03:02:55Z) - Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features [51.5076190312734]
ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。
ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。
合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-11-21T03:40:45Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。
既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。
逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文 参考訳(メタデータ) (2025-03-16T12:32:11Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [66.63250537475973]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。