論文の概要: OSDA: A Framework for Open-Set Discovery and Automatic Interpretation of Land-cover in Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2509.18693v1
- Date: Tue, 23 Sep 2025 06:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.728092
- Title: OSDA: A Framework for Open-Set Discovery and Automatic Interpretation of Land-cover in Remote Sensing Imagery
- Title(参考訳): OSDA:リモートセンシング画像における土地被覆のオープンセット発見と自動解釈のためのフレームワーク
- Authors: Siyi Chen, Kai Wang, Weicong Pang, Ruiming Yang, Ziru Chen, Renjun Gao, Alexis Kai Hon Lau, Dasa Gu, Chenchen Zhang, Cheng Li,
- Abstract要約: リモートセンシングにおけるオープン・セットの土地被覆分析は、きめ細かい空間的局所化とセマンティック・オープンな分類を実現する能力を必要とする。
我々は,アノテーションのないオープンセット土地被覆発見,セグメンテーション,記述のための3段階統合フレームワークOSDAを紹介する。
我々の研究は、動的土地被覆モニタリングのためのスケーラブルで解釈可能なソリューションを提供し、自動地図更新と大規模地球観測分析の強力な可能性を示している。
- 参考スコア(独自算出の注目度): 10.196580289786414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-set land-cover analysis in remote sensing requires the ability to achieve fine-grained spatial localization and semantically open categorization. This involves not only detecting and segmenting novel objects without categorical supervision but also assigning them interpretable semantic labels through multimodal reasoning. In this study, we introduce OSDA, an integrated three-stage framework for annotation-free open-set land-cover discovery, segmentation, and description. The pipeline consists of: (1) precise discovery and mask extraction with a promptable fine-tuned segmentation model (SAM), (2) semantic attribution and contextual description via a two-phase fine-tuned multimodal large language model (MLLM), and (3) LLM-as-judge and manual scoring of the MLLMs evaluation. By combining pixel-level accuracy with high-level semantic understanding, OSDA addresses key challenges in open-world remote sensing interpretation. Designed to be architecture-agnostic and label-free, the framework supports robust evaluation across diverse satellite imagery without requiring manual annotation. Our work provides a scalable and interpretable solution for dynamic land-cover monitoring, showing strong potential for automated cartographic updating and large-scale earth observation analysis.
- Abstract(参考訳): リモートセンシングにおけるオープン・セットの土地被覆分析は、きめ細かい空間的局所化とセマンティック・オープンな分類を実現する能力を必要とする。
これは、分類的監督なしに新しいオブジェクトを検出し、セグメンテーションするだけでなく、マルチモーダル推論を通じて解釈可能なセマンティックラベルを割り当てる。
本研究では,アノテーションのないオープンセット土地被覆発見,セグメンテーション,記述のための3段階統合フレームワークOSDAを紹介する。
パイプラインは,(1)素早い細調整セグメンテーションモデル(SAM)による正確な発見とマスク抽出,(2)2相微調整マルチモーダル言語モデル(MLLM)による意味的属性と文脈的記述,(3)MLLMの評価のLCM-as-judgeと手動評価からなる。
ピクセルレベルの精度と高レベルのセマンティック理解を組み合わせることで、OSDAはオープンワールドのリモートセンシング解釈における重要な課題に対処する。
このフレームワークは、アーキテクチャに依存しないラベルのないように設計されており、手動のアノテーションを必要とせず、多様な衛星画像に対して堅牢な評価をサポートする。
我々の研究は、動的土地被覆モニタリングのためのスケーラブルで解釈可能なソリューションを提供し、自動地図更新と大規模地球観測分析の強力な可能性を示している。
関連論文リスト
- Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition [19.74617806521803]
InstructSAMは、命令駆動オブジェクト認識のためのトレーニング不要のフレームワークである。
我々は、地球観測のための最初のインストラクトCDSベンチマークであるEarthInstructを紹介する。
論文 参考訳(メタデータ) (2025-05-21T17:59:56Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - LidaRefer: Context-aware Outdoor 3D Visual Grounding for Autonomous Driving [1.0589208420411014]
3Dビジュアルグラウンドは、自然言語記述でガイドされた3Dシーン内のオブジェクトや領域を見つけることを目的としている。
大規模な屋外LiDARシーンは背景が支配的であり、フォアグラウンド情報も限られている。
LidaReferは、屋外シーンのためのコンテキスト対応の3D VGフレームワークである。
論文 参考訳(メタデータ) (2024-11-07T01:12:01Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z) - Hierarchical Context Embedding for Region-based Object Detection [40.9463003508027]
階層型コンテキスト埋め込み(HCE)フレームワークは、プラグイン・アンド・プレイコンポーネントとして適用することができる。
文脈依存型オブジェクトカテゴリの認識を促進するために,画像レベルのカテゴリ埋め込みモジュールを提案する。
画像全体と関心領域の両方に階層的に埋め込まれたコンテキスト情報を活用することで、新しいRoI機能を生成する。
論文 参考訳(メタデータ) (2020-08-04T05:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。