論文の概要: ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object
- arxiv url: http://arxiv.org/abs/2503.12006v1
- Date: Sat, 15 Mar 2025 06:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:39.189651
- Title: ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object
- Title(参考訳): ROS-SAM:リモートセンシング移動物体のための高品質インタラクティブセグメンテーション
- Authors: Zhe Shan, Yang Liu, Lei Zhou, Cheng Yan, Heng Wang, Xia Xie,
- Abstract要約: 小さなオブジェクトサイズ、あいまいな特徴、限定的な一般化は、現在のメソッドがこの目標を達成するのを難しくする。
本稿では,多様なリモートセンシングデータにまたがる一般化を維持しつつ,高品質な対話的セグメンテーションを実現する手法であるROS-SAMを提案する。
ROS-SAM は,1) SAM の一般化能力を維持しながらドメイン適応の効率化を実現する LoRA-based fine-tuning,2) 抽出した特徴の識別性向上のためのディープネットワーク層の拡張,3) マスクデコーダの局所境界詳細とグローバルコンテキストの統合による高品質セグメンテーションマスクの生成という,3つの重要なイノベーションに基づいて構築されている。
- 参考スコア(独自算出の注目度): 14.931975623642169
- License:
- Abstract: The availability of large-scale remote sensing video data underscores the importance of high-quality interactive segmentation. However, challenges such as small object sizes, ambiguous features, and limited generalization make it difficult for current methods to achieve this goal. In this work, we propose ROS-SAM, a method designed to achieve high-quality interactive segmentation while preserving generalization across diverse remote sensing data. The ROS-SAM is built upon three key innovations: 1) LoRA-based fine-tuning, which enables efficient domain adaptation while maintaining SAM's generalization ability, 2) Enhancement of deep network layers to improve the discriminability of extracted features, thereby reducing misclassifications, and 3) Integration of global context with local boundary details in the mask decoder to generate high-quality segmentation masks. Additionally, we design the data pipeline to ensure the model learns to better handle objects at varying scales during training while focusing on high-quality predictions during inference. Experiments on remote sensing video datasets show that the redesigned data pipeline boosts the IoU by 6%, while ROS-SAM increases the IoU by 13%. Finally, when evaluated on existing remote sensing object tracking datasets, ROS-SAM demonstrates impressive zero-shot capabilities, generating masks that closely resemble manual annotations. These results confirm ROS-SAM as a powerful tool for fine-grained segmentation in remote sensing applications. Code is available at https://github.com/ShanZard/ROS-SAM.
- Abstract(参考訳): 大規模なリモートセンシングビデオデータの提供は、高品質なインタラクティブセグメンテーションの重要性を浮き彫りにしている。
しかし、小さなオブジェクトサイズ、あいまいな特徴、限定的な一般化といった課題は、現在の手法がこの目標を達成するのを困難にしている。
本研究では,多様なリモートセンシングデータにまたがる一般化を維持しつつ,高品質な対話的セグメンテーションを実現する手法であるROS-SAMを提案する。
ROS-SAMは3つの重要なイノベーションの上に構築されている。
1) SAMの一般化能力を維持しつつドメイン適応の効率化を実現するLORAファインチューニング。
2【深層ネットワークの強化】抽出した特徴の識別性を向上し、誤分類の低減を図る。
3)グローバルコンテキストとマスクデコーダの局所境界の詳細の統合により,高品質なセグメンテーションマスクを生成する。
さらに、モデルがトレーニング中にさまざまなスケールでオブジェクトを処理し、推論中に高品質な予測に集中できるように、データパイプラインを設計します。
リモートセンシングビデオデータセットの実験では、再設計されたデータパイプラインがIoUを6%向上させ、ROS-SAMはIoUを13%向上させた。
最後に、既存のリモートセンシングオブジェクト追跡データセットで評価すると、ROS-SAMは印象的なゼロショット機能を示し、手動アノテーションによく似たマスクを生成する。
これらの結果から,ROS-SAMはリモートセンシングアプリケーションにおける細粒度セグメンテーションの強力なツールであることが確認された。
コードはhttps://github.com/ShanZard/ROS-SAMで入手できる。
関連論文リスト
- PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - Joint-Optimized Unsupervised Adversarial Domain Adaptation in Remote Sensing Segmentation with Prompted Foundation Model [32.03242732902217]
本稿では、ソースドメインデータに基づいてトレーニングされたモデルをターゲットドメインサンプルに適用するという課題に対処する。
SAM(Segment Anything Model)とSAM-JOANet(SAM-JOANet)を併用した協調最適化対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:15:20Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - RSAM-Seg: A SAM-based Approach with Prior Knowledge Integration for
Remote Sensing Image Semantic Segmentation [10.37240769959699]
Segment Anything Model (SAM)は、イメージセグメンテーションタスクのための普遍的な事前トレーニングモデルを提供する。
本稿では,セマンティックを用いたリモートセンシングSAM(RSAM-Seg)を提案する。
SAMのエンコーダ部分のマルチヘッドアテンションブロックにおいて,アダプタスケール(Adapter-Scale)が提案されている。
クラウド検出、フィールド監視、ビル検出、道路マッピングタスクを含む4つの異なるリモートセンシングシナリオで実験が行われた。
論文 参考訳(メタデータ) (2024-02-29T09:55:46Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment
Anything Model [85.85899655118087]
我々はSAMRSと呼ばれる大規模RSセグメンテーションデータセットを生成するための効率的なパイプラインを開発する。
SAMRSは完全に105,090の画像と1,668,241のインスタンスを持ち、既存の高解像度RSセグメンテーションデータセットを数桁上回っている。
論文 参考訳(メタデータ) (2023-05-03T10:58:07Z) - CFC-Net: A Critical Feature Capturing Network for Arbitrary-Oriented
Object Detection in Remote Sensing Images [0.9462808515258465]
本稿では,物体検出における識別的特徴の役割について論じる。
次に,検出精度を向上させるために,cfc-net (critical feature capture network) を提案する。
本手法は多くの最先端手法と比較して優れた検出性能が得られることを示す。
論文 参考訳(メタデータ) (2021-01-18T02:31:09Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。