論文の概要: Baltimore Atlas: FreqWeaver Adapter for Semi-supervised Ultra-high Spatial Resolution Land Cover Classification
- arxiv url: http://arxiv.org/abs/2506.15565v1
- Date: Wed, 18 Jun 2025 15:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.722883
- Title: Baltimore Atlas: FreqWeaver Adapter for Semi-supervised Ultra-high Spatial Resolution Land Cover Classification
- Title(参考訳): ボルチモア・アトラス:FreqWeaverアダプタによる半監督型超高分解能土地被覆分類
- Authors: Junhao Wu, Aboagye-Ntow Stephen, Chuyuan Wang, Gang Chen, Xin Huang,
- Abstract要約: 提案手法は, より優れた構造整合性を有するロバストなセグメンテーション結果を提供する。
既存のパラメータ効率のチューニング戦略よりも1.78%改善し、最先端の高解像度リモートセンシングセグメンテーションアプローチに比べて3.44%向上した。
- 参考スコア(独自算出の注目度): 6.922029098479534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-high Spatial Resolution Land Cover Classification is essential for fine-grained land cover analysis, yet it remains challenging due to the high cost of pixel-level annotations, significant scale variation, and the limited adaptability of large-scale vision models. Existing methods typically focus on 1-meter spatial resolution imagery and rely heavily on annotated data, whereas practical applications often require processing higher-resolution imagery under weak supervision. To address this, we propose a parameter-efficient semi-supervised segmentation framework for 0.3 m spatial resolution imagery, which leverages the knowledge of SAM2 and introduces a remote sensing-specific FreqWeaver Adapter to enhance fine-grained detail modeling while maintaining a lightweight design at only 5.96% of the total model parameters. By effectively leveraging unlabeled data and maintaining minimal parameter overhead, the proposed method delivers robust segmentation results with superior structural consistency, achieving a 1.78% improvement over existing parameter-efficient tuning strategies and a 3.44% gain compared to state-of-the-art high-resolution remote sensing segmentation approaches.
- Abstract(参考訳): 超高分解能土地被覆分類は微粒な土地被覆解析に不可欠であるが, 画素レベルのアノテーションの高コスト化, スケールの大幅な変化, 大規模視覚モデルの適応性に制限があるため, 依然として困難である。
既存の手法は通常1メートルの空間分解能画像に焦点をあて、注釈付きデータに大きく依存するが、実際的な用途では弱い監督下で高解像度画像を処理する必要がある。
そこで本研究では,SAM2の知識を生かした0.3m空間解像度画像のためのパラメータ効率の高い半教師付きセグメンテーションフレームワークを提案する。
未ラベルデータの有効活用と最小パラメータオーバーヘッドの維持により,既存のパラメータ効率調整手法よりも1.78%向上し,最先端の高分解能リモートセンシングセグメンテーション手法に比べて3.44%向上した,堅牢なセグメンテーション結果を実現する。
関連論文リスト
- Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction [13.897013242536849]
全スライディング画像(WSI)解析は、ギガピクセルスケールとわずかに分散した診断領域のため、依然として困難である。
本稿では,WSIあたりの平均9つの高解像度パッチだけが,スライドレベルの堅牢な表現に十分であることを示すカスケードデュアルスケール再構築フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-03T08:01:30Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - One Look is Enough: A Novel Seamless Patchwise Refinement for Zero-Shot Monocular Depth Estimation Models on High-Resolution Images [25.48185527420231]
我々は、効率的で一般化可能なタイルベースのフレームワークであるPatch Refine Once (PRO)を提案する。
提案手法は, (i) 深度不連続性問題を緩和しつつ, テスト時間効率を向上させるグループパッチ整合性トレーニングという2つの重要な要素から構成される。
我々のPROはよく調和でき、グリッド境界における深度不連続性の少ない高解像度画像のグリッド入力に対して、そのDEC機能を依然として有効にすることができる。
論文 参考訳(メタデータ) (2025-03-28T11:46:50Z) - Towards Degradation-Robust Reconstruction in Generalizable NeRF [58.33351079982745]
GNeRF(Generalizable Radiance Field)は,シーンごとの最適化を回避する手段として有効であることが証明されている。
GNeRFの強靭性は, ソース画像に現れる様々な種類の劣化に対して限定的に研究されている。
論文 参考訳(メタデータ) (2024-11-18T16:13:47Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Seismic Fault SAM: Adapting SAM with Lightweight Modules and 2.5D Strategy for Fault Detection [11.868792440783054]
本稿では,一般的な事前学習基盤モデルであるSAM(Segment Anything Model)を地震断層解釈に適用した地震断層SAMを提案する。
私たちの革新的なポイントは、軽量なAdapterモジュールの設計、トレーニング済みの重量のほとんどを凍結し、少数のパラメータのみを更新することです。
その結果,OISとODSの双方で既存の3次元モデルを上回る結果が得られた。
論文 参考訳(メタデータ) (2024-07-19T08:38:48Z) - PatchRefiner: Leveraging Synthetic Data for Real-Domain High-Resolution Monocular Metric Depth Estimation [42.29746147944489]
PatchRefinerは、高分解能な実領域入力を目的としたメートル法単一画像深度推定のための高度なフレームワークである。
PatchRefinerはタイルベースの手法を採用し、高分解能深度推定を精錬プロセスとして再認識する。
我々の評価は、PatchRefinerの優れたパフォーマンスを示し、Unreal4KStereoデータセットの既存のベンチマークを著しく上回っている。
論文 参考訳(メタデータ) (2024-06-10T18:00:03Z) - TransLandSeg: A Transfer Learning Approach for Landslide Semantic Segmentation Based on Vision Foundation Model [4.8312235770932]
視覚基盤モデル(VFM)に基づく地すべりセマンティックセグメンテーションのための伝達学習手法であるTransLandSegを提案する。
提案した適応転写学習(ATL)アーキテクチャは,SAMのパラメータの1.3%のトレーニングで,SAMの強力なセグメンテーション能力を地すべり検出に伝達することを可能にする。
論文 参考訳(メタデータ) (2024-03-15T09:18:53Z) - Learning without Exact Guidance: Updating Large-scale High-resolution Land Cover Maps from Low-resolution Historical Labels [4.833320222969612]
大規模な高解像度(HR)の土地被覆マッピングは、地球の表面を調査し、人類が直面する多くの課題を解決するための重要な課題である。
本研究では,大規模人事地被覆地図作成のための効率的かつ弱教師付きフレームワーク(Paraformer)を提案する。
論文 参考訳(メタデータ) (2024-03-05T08:02:00Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Multi-tiling Neural Radiance Field (NeRF) -- Geometric Assessment on Large-scale Aerial Datasets [5.391764618878545]
本稿では,大規模航空データセット上でのNeRF(Neural Radiance Fields)のスケールアップを目指す。
具体的には、メモリ消費を減らすため、位置特定サンプリング技術とマルチカメラタイリング(MCT)戦略を導入する。
提案手法を代表的手法であるMip-NeRFに実装し,その幾何性能を3光度MVSパイプラインと比較する。
論文 参考訳(メタデータ) (2023-10-01T00:21:01Z) - Semi-supervised Learning from Street-View Images and OpenStreetMap for
Automatic Building Height Estimation [59.6553058160943]
本稿では,Mapillary SVIとOpenStreetMapのデータから建物の高さを自動的に推定する半教師付き学習(SSL)手法を提案する。
提案手法は, 平均絶対誤差(MAE)が約2.1mである建物の高さを推定する上で, 明らかな性能向上につながる。
予備結果は,低コストなVGIデータに基づく提案手法のスケールアップに向けた今後の取り組みを期待し,動機づけるものである。
論文 参考訳(メタデータ) (2023-07-05T18:16:30Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - PreTraM: Self-Supervised Pre-training via Connecting Trajectory and Map [58.53373202647576]
軌道予測のための自己教師付き事前学習方式であるPreTraMを提案する。
1) トラジェクティブ・マップ・コントラクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)の2つのパートから構成される。
AgentFormerやTrajectron++といった一般的なベースラインに加えて、PreTraMは、挑戦的なnuScenesデータセット上で、FDE-10でパフォーマンスを5.5%と6.9%向上させる。
論文 参考訳(メタデータ) (2022-04-21T23:01:21Z) - High Quality Segmentation for Ultra High-resolution Images [72.97958314291648]
超高分解能セグメンテーション精錬作業のための連続精細モデルを提案する。
提案手法は画像分割精細化において高速かつ効果的である。
論文 参考訳(メタデータ) (2021-11-29T11:53:06Z) - LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic
Segmentation [7.629717457706323]
LoveDAデータセットには3つの都市から166個の注釈付きオブジェクトを持つ5987個のHSRイメージが含まれている。
LoveDAデータセットは、土地被覆セマンティックセグメンテーションと教師なしドメイン適応(UDA)タスクの両方に適している。
論文 参考訳(メタデータ) (2021-10-17T06:12:48Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z) - GANav: Group-wise Attention Network for Classifying Navigable Regions in
Unstructured Outdoor Environments [54.21959527308051]
本稿では,RGB画像から,オフロード地形および非構造環境における安全かつ航行可能な領域を識別する新しい学習手法を提案する。
本手法は,粒度の粗いセマンティックセグメンテーションを用いて,そのナビビリティレベルに基づいて地形分類群を分類する。
RUGD と RELLIS-3D のデータセットを広範囲に評価することにより,我々の学習アルゴリズムがナビゲーションのためのオフロード地形における視覚知覚の精度を向上させることを示す。
論文 参考訳(メタデータ) (2021-03-07T02:16:24Z) - Foveation for Segmentation of Ultra-High Resolution Images [8.037287701125832]
本稿では、入力パッチの適切な設定(FoV/解像度トレードオフ)を適応的に選択し、下流セグメンテーションモデルにフィードする、学習可能なデータローダであるFoveationモジュールを紹介する。
固定されたFoV/解像度トレードオフのパッチでトレーニングした場合よりも,Foveationモジュールはセグメンテーション性能を一貫して向上することを示す。
論文 参考訳(メタデータ) (2020-07-29T21:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。