論文の概要: DINO Soars: DINOv3 for Open-Vocabulary Semantic Segmentation of Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2605.03175v1
- Date: Mon, 04 May 2026 21:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.655694
- Title: DINO Soars: DINOv3 for Open-Vocabulary Semantic Segmentation of Remote Sensing Imagery
- Title(参考訳): DINO Soars:DINOv3 for Open-Vocabulary Semantic Segmentation of Remote Sensing Imagery
- Authors: Ryan Faulkenberry, Saurabh Prasad,
- Abstract要約: 我々は、RS領域の微調整が不要なRS画像のためのOVSSモデルを開発した。
本モデルは,コストアグリゲーションとテキスト画像類似度スコアのトレーニング不要なアップサンプリングにより,DINOv3の強力なOVSS性能を利用する。
CAFe-DINOは、重要なRSセグメンテーションデータセット上で最先端のパフォーマンスを達成し、RSデータに基づいて微調整されたOVSSメソッドより優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 2.62121275102348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remote sensing (RS) domain suffers from a lack of densely labeled datasets, which are costly to obtain. Thus, models that can segment RS imagery well without supervised fine-tuning are valuable, but existing solutions fall behind supervised methods. Recently, DINOv3 surpassed SOTA RS foundation models on the GEO-bench segmentation benchmark without pre-training on RS data. Additionally, DINO.txt has enabled open vocabulary semantic segmentation (OVSS) with the DINOv3 backbone. We leverage these developments to form an OVSS model for RS imagery, free of RS-domain fine-tuning. Our model, CAFe-DINO (Cost Aggregation + Feature Upsampling with DINO) exploits the strong OVSS performance of DINOv3 for RS imagery via cost aggregation and training-free upsampling of text-image similarity scores. The robust latent of the DINOv3 backbone eliminates the need for fine-tuning on RS imagery; we instead fine-tune our model on a RS-targeted subset of COCO-Stuff. CAFe-DINO achieves state-of-the-art performance on key RS segmentation datasets, outperforming OVSS methods fine-tuned on RS data. Our code and data are publicly available at https://github.com/rfaulk/DINO_Soars.
- Abstract(参考訳): リモートセンシング(RS)ドメインは、高密度にラベル付けされたデータセットの欠如に悩まされており、取得にはコストがかかる。
したがって、教師付き微調整なしでRS画像を適切に分割できるモデルは有用であるが、既存の解決策は教師付き手法に遅れる。
近年,DINOv3 は GEO-bench セグメンテーションベンチマーク において RS データを事前学習することなく SOTA RS 基礎モデルを上回っている。
さらに、DINO.txtはDINOv3のバックボーンでオープン語彙セマンティックセグメンテーション(OVSS)を可能にした。
我々はこれらの開発を活用して、RS領域の微調整が不要なRS画像のためのOVSSモデルを作成する。
当社のモデルであるCAFe-DINO(Cost Aggregation + Feature Upsampling with DINO)は,コストアグリゲーションとテキスト画像類似度スコアのトレーニング不要アップサンプリングを通じて,RS画像に対するDINOv3の強力なOVSS性能を利用する。
DINOv3バックボーンの頑健な潜伏は、RS画像の微調整の必要性を排除し、代わりに我々は、RSターゲットのCOCO-Stuffサブセットでモデルを微調整する。
CAFe-DINOは、重要なRSセグメンテーションデータセット上で最先端のパフォーマンスを達成し、RSデータに基づいて微調整されたOVSSメソッドより優れたパフォーマンスを実現している。
私たちのコードとデータはhttps://github.com/rfaulk/DINO_Soars.comで公開されています。
関連論文リスト
- Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - RS-NeRF: Neural Radiance Fields from Rolling Shutter Images [30.719764073204423]
本稿では,RS歪みを用いた入力を用いて,新しいビューから通常の画像を合成する手法であるRS-NeRFを提案する。
これは、RS条件下で画像形成過程を再現する物理モデルを含む。
さらに,基本RS-NeRFモデルの本質的な欠点を,RS特性を掘り下げ,その機能を強化するアルゴリズムを開発することで解決する。
論文 参考訳(メタデータ) (2024-07-14T16:27:11Z) - Harnessing Massive Satellite Imagery with Efficient Masked Image Modeling [20.479011464156113]
Masked Image Modeling (MIM)は、リモートセンシング(RS)における基礎的な視覚モデル構築に欠かせない方法となっている。
本稿では,大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする,RSモデルの事前学習パイプラインを提案する。
本研究では,セマンティックにリッチなパッチトークンを動的にエンコードし,再構成する事前学習手法であるSelectiveMAEを提案する。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - ALPS: An Auto-Labeling and Pre-training Scheme for Remote Sensing Segmentation With Segment Anything Model [32.91528641298171]
ALPS (Automatic Labeling for Pre-training in Pre-training in Remote Sensing) という,革新的な自動ラベリングフレームワークを導入する。
我々はSegment Anything Model(SAM)を利用して、事前のアノテーションや追加のプロンプトを必要とせずに、RS画像の正確な擬似ラベルを予測する。
提案手法は,iSAIDやISPRS Potsdamなど,様々なベンチマークにおけるダウンストリームタスクの性能を向上させる。
論文 参考訳(メタデータ) (2024-06-16T09:02:01Z) - SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment
Anything Model [85.85899655118087]
我々はSAMRSと呼ばれる大規模RSセグメンテーションデータセットを生成するための効率的なパイプラインを開発する。
SAMRSは完全に105,090の画像と1,668,241のインスタンスを持ち、既存の高解像度RSセグメンテーションデータセットを数桁上回っている。
論文 参考訳(メタデータ) (2023-05-03T10:58:07Z) - Automated classification of pre-defined movement patterns: A comparison
between GNSS and UWB technology [55.41644538483948]
リアルタイム位置情報システム(RTLS)は、人間の動きパターンからデータを収集することができる。
本研究の目的は、小さな領域における人間の動きパターンを分類する自動化された枠組みを設計し、評価することである。
論文 参考訳(メタデータ) (2023-03-10T14:46:42Z) - Self-Supervised Learning for Invariant Representations from
Multi-Spectral and SAR Images [5.994412766684843]
自己監視学習(SSL)は、いくつかのドメイン分類とセグメンテーションタスクにおいて、新しい最先端技術となっている。
本研究は, リモートセンシング(RS)領域に蒸留ネットワーク(BYOL)を適用したRSDnetを提案する。
論文 参考訳(メタデータ) (2022-05-04T13:16:48Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Video-based Person Re-identification without Bells and Whistles [49.51670583977911]
ビデオベースの人物再識別(Re-ID)は、異なるカメラの下で歩行者を特定するために、ビデオトラッカーとトリミングされたビデオフレームをマッチングすることを目的としている。
従来の方法による不完全な検出と追跡の結果から, 収穫したトラックレットの空間的, 時間的不整合が生じている。
本稿では,深層学習に基づくトラックレットの検出と追跡を適用することで,これらの予期せぬノイズを効果的に低減できる簡易な再検出リンク(DL)モジュールを提案する。
論文 参考訳(メタデータ) (2021-05-22T10:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。