論文の概要: Observe Less, Understand More: Cost-aware Cross-scale Observation for Remote Sensing Understanding
- arxiv url: http://arxiv.org/abs/2604.11415v1
- Date: Mon, 13 Apr 2026 13:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.544643
- Title: Observe Less, Understand More: Cost-aware Cross-scale Observation for Remote Sensing Understanding
- Title(参考訳): リモートセンシング理解のためのコスト認識型クロススケール観察
- Authors: Zhenghao Xie, Jing Xiao, Zhenqi Wang, Kexin Ma, Liang Liao, Gui-Song Xia, Mi Wang,
- Abstract要約: 高解像度(HR)画像は、はるかに高い買収コストと限られた範囲で重要な局所的な詳細を提供する。
これは、LRに基づくグローバルな知覚からHRイメージを選択的に取得する、クロススケールなセンシング戦略のモチベーションである。
GL-10Mは,1000万個の空間的に整列したマルチ解像度画像の大規模ベンチマークである。
- 参考スコア(独自算出の注目度): 49.97682794425118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing understanding inherently requires multi-resolution observation, since different targets and application tasks demand different levels of spatial detail. While low-resolution (LR) imagery enables efficient global observation, high-resolution (HR) imagery provides critical local details at much higher acquisition cost and limited coverage. This motivates a cross-scale sensing strategy that selectively acquires HR imagery from LR-based global perception to improve task performance under constrained cost. Existing methods for HR sampling methods typically make selection decisions from isolated LR patches, which ignore fine-grained intra-patch importance and cross-patch contextual interactions, leading to fragmented feature representation and suboptimal scene reasoning under sparse HR observations. To address this issue, we formulate cross-scale remote sensing understanding as a unified cost-aware problem that couples fine-grained HR sampling with cross-patch representation prediction, enabling more effective task reasoning with fewer HR observations. Furthermore, we present GL-10M, a large-scale benchmark of 10 million spatially aligned multi-resolution images, enabling systematic evaluation of budget-constrained cross-scale reasoning in remote sensing. Extensive experiments on recognition and retrieval tasks show that our method consistently achieves a superior performance-cost trade-off.
- Abstract(参考訳): リモートセンシングの理解には、異なる目標と応用タスクが異なる空間的詳細レベルを必要とするため、本質的にはマルチレゾリューションな観察が必要である。
低分解能(LR)画像は効率的な地球観測を可能にするが、高分解能(HR)画像はより高い取得コストと限られた範囲で重要な局所的な詳細を提供する。
これは、LRに基づくグローバルな認識からHR画像を選択的に取得し、制約されたコストでタスク性能を向上させる、クロススケールなセンシング戦略のモチベーションである。
既存のHRサンプリング手法は、通常、分離されたLRパッチから選択決定を行うが、これはきめ細かなパッチ内重要度やコンテキスト間相互作用を無視し、断片化された特徴表現と、スパースHR観察下での最適シーン推論をもたらす。
この問題に対処するために、我々はクロススケールなリモートセンシング理解を、より詳細なHRサンプリングとクロスパッチ表現予測を結合した統合コスト認識問題として定式化し、より効率的なHR観察によるタスク推論を可能にした。
さらに,1000万個の空間的に整列したマルチレゾリューション画像の大規模ベンチマークであるGL-10Mを提案し,リモートセンシングにおける予算制約によるクロススケール推論の体系的評価を可能にした。
認識・検索タスクに関する大規模な実験により,本手法は優れた性能・コストトレードオフを実現することができた。
関連論文リスト
- Looking Alike From Far to Near: Enhancing Cross-Resolution Re-Identification via Feature Vector Panning [14.89776496894534]
クロスリゾリューションReID(CR-ReID)法は、特徴補償のための超解像(SR)や共同学習に依存している。
単語埋め込み空間のセマンティックな方向から着想を得た結果,ReIDの特徴空間にも,解決の相違を意味するセマンティックな方向が現れることが実証的に明らかになった。
本稿では,新しい視点からCR-ReIDを実行する軽量で効果的なベクトルパニング機能アライメント(VPFA)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:39Z) - Retrieval-Augmented Perception: High-Resolution Image Perception Meets Visual RAG [79.61269381878547]
マルチモーダル大言語モデル(MLLM)における高分解能画像認識の課題
本稿では,従来の専門的アプローチから脱却し,MLLMの長文能力を高めることにより,最も基本的な考え方を人事知覚に再考する。
本研究では,空間的コンテキストを保ちながら関連する画像作物を抽出・融合する学習自由フレームワークであるRetrieval-Augmented Perception (RAP)を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:40:21Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - Disentangled High Quality Salient Object Detection [8.416690566816305]
本稿では,SOD(High- resolution Salient Object Detection)のための新しいディープラーニングフレームワークを提案する。
タスクを低分解能唾液度分類ネットワーク(LRSCN)と高分解能精製ネットワーク(HRRN)に切り離す。
論文 参考訳(メタデータ) (2021-08-08T02:14:15Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。