論文の概要: Zooming Out on Zooming In: Advancing Super-Resolution for Remote Sensing
- arxiv url: http://arxiv.org/abs/2311.18082v1
- Date: Wed, 29 Nov 2023 21:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:52:43.912787
- Title: Zooming Out on Zooming In: Advancing Super-Resolution for Remote Sensing
- Title(参考訳): Zooming Out on Zooming In:Advanced Super-Resolution for Remote Sensing
- Authors: Piper Wolters, Favyen Bastani, Aniruddha Kembhavi
- Abstract要約: リモートセンシングのための超解像は、惑星の監視に大きな影響を与える可能性がある。
多くの注意を払っているにもかかわらず、いくつかの矛盾や課題により、実際にデプロイされるのを妨げている。
この研究は、従来の測定値よりも人間の判断にはるかによく対応している、超高解像度のCLIPScoreのための新しい測定基準を示す。
- 参考スコア(独自算出の注目度): 31.409817016287704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Super-Resolution for remote sensing has the potential for huge impact on
planet monitoring by producing accurate and realistic high resolution imagery
on a frequent basis and a global scale. Despite a lot of attention, several
inconsistencies and challenges have prevented it from being deployed in
practice. These include the lack of effective metrics, fragmented and
relatively small-scale datasets for training, insufficient comparisons across a
suite of methods, and unclear evidence for the use of super-resolution outputs
for machine consumption. This work presents a new metric for super-resolution,
CLIPScore, that corresponds far better with human judgments than previous
metrics on an extensive study. We use CLIPScore to evaluate four standard
methods on a new large-scale dataset, S2-NAIP, and three existing benchmark
datasets, and find that generative adversarial networks easily outperform more
traditional L2 loss-based models and are more semantically accurate than modern
diffusion models. We also find that using CLIPScore as an auxiliary loss can
speed up the training of GANs by 18x and lead to improved outputs, resulting in
an effective model in diverse geographies across the world which we will
release publicly. The dataset, pre-trained model weights, and code are
available at https://github.com/allenai/satlas-super-resolution/.
- Abstract(参考訳): リモートセンシングのスーパーレゾリューションは、高精度で現実的な高解像度画像を頻繁かつグローバルなスケールで生成することで、惑星の監視に大きな影響を与える可能性がある。
多くの注意を払っているにもかかわらず、いくつかの矛盾や課題により、実際にデプロイされるのを妨げている。
これには、効果的なメトリクスの欠如、トレーニングのための断片化と比較的小規模なデータセット、一連のメソッド間の比較が不十分であること、マシン消費に超解像出力を使用することの明確な証拠が含まれる。
この研究は、これまでの広範な研究において、人間の判断と非常によく一致するスーパーレゾリューションのための新しい指標であるクリップスコアを提示している。
新しい大規模データセットであるS2-NAIPと既存の3つのベンチマークデータセットの4つの標準手法を評価するためにCLIPScoreを使用し、ジェネレーティブな敵対的ネットワークは従来のL2損失ベースモデルよりも容易に優れ、現代の拡散モデルよりも意味論的に正確であることを示す。
また,CLIPScoreを補助的損失として使用することで,GANのトレーニングを18倍に高速化し,出力の改善につながることが判明した。
データセット、事前トレーニングされたモデルウェイト、コードはhttps://github.com/allenai/satlas-super- resolution/で入手できる。
関連論文リスト
- On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning [18.318758111829386]
非パラメトリックなインスタンス識別に基づく効率的なシングルブランチSSL手法を提案する。
また,確率分布と正方形根版とのKL分散を最小限に抑える新しい自己蒸留損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T06:39:04Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Evaluating the Label Efficiency of Contrastive Self-Supervised Learning
for Multi-Resolution Satellite Imagery [0.0]
遠隔センシング領域における自己教師付き学習は、容易に利用可能なラベル付きデータを活用するために応用されている。
本稿では,ラベル効率のレンズを用いた自己教師型視覚表現学習について検討する。
論文 参考訳(メタデータ) (2022-10-13T06:54:13Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - a novel attention-based network for fast salient object detection [14.246237737452105]
現在の有向物体検出ネットワークにおいて、最も一般的な方法はU字型構造を用いることである。
3つのコントリビューションを持つ新しい深層畳み込みネットワークアーキテクチャを提案する。
提案手法は, 精度を損なうことなく, 原サイズの1/3まで圧縮できることを示した。
論文 参考訳(メタデータ) (2021-12-20T12:30:20Z) - MogFace: Rethinking Scale Augmentation on the Face Detector [17.570686622370403]
本研究では,画像の前景情報と後景情報とスケール情報を含む先行ソリューションの違いについて検討する。
本稿では,これらの2つの情報を効率的に同時に同化できるSSE戦略を提案する。
本手法は,すべての顔検出ベンチマークにおける最先端検出性能を実現する。
論文 参考訳(メタデータ) (2021-03-20T09:17:04Z) - HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。
resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文 参考訳(メタデータ) (2020-12-14T09:15:15Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild [104.61677518999976]
顔のランドマークを検出するために,Pixel-in-Pixel Net(PIPNet)を提案する。
提案モデルは,熱マップ回帰に基づく新しい検出ヘッドを備える。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。