Fugu-MT 論文翻訳(概要): RemoteSAM: Towards Segment Anything for Earth Observation

論文の概要: RemoteSAM: Towards Segment Anything for Earth Observation

arxiv url: http://arxiv.org/abs/2505.18022v1
Date: Fri, 23 May 2025 15:27:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.191938
Title: RemoteSAM: Towards Segment Anything for Earth Observation
Title（参考訳）: リモートSAM:地球観測のためのセグメンテーションに向けて
Authors: Liang Yao, Fan Liu, Delong Chen, Chuanyi Zhang, Yijun Wang, Ziyun Chen, Wei Xu, Shimin Di, Yuhui Zheng,
Abstract要約: 我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。多様な視覚的目標を認識し、位置を特定する能力を持つべきである。いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
参考スコア（独自算出の注目度）: 29.707796048411705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We aim to develop a robust yet flexible visual foundation model for Earth observation. It should possess strong capabilities in recognizing and localizing diverse visual targets while providing compatibility with various input-output interfaces required across different task scenarios. Current systems cannot meet these requirements, as they typically utilize task-specific architecture trained on narrow data domains with limited semantic coverage. Our study addresses these limitations from two aspects: data and modeling. We first introduce an automatic data engine that enjoys significantly better scalability compared to previous human annotation or rule-based approaches. It has enabled us to create the largest dataset of its kind to date, comprising 270K image-text-mask triplets covering an unprecedented range of diverse semantic categories and attribute specifications. Based on this data foundation, we further propose a task unification paradigm that centers around referring expression segmentation. It effectively handles a wide range of vision-centric perception tasks, including classification, detection, segmentation, grounding, etc, using a single model without any task-specific heads. Combining these innovations on data and modeling, we present RemoteSAM, a foundation model that establishes new SoTA on several earth observation perception benchmarks, outperforming other foundation models such as Falcon, GeoChat, and LHRS-Bot with significantly higher efficiency. Models and data are publicly available at https://github.com/1e12Leon/RemoteSAM.
Abstract（参考訳）: 我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。様々なタスクシナリオにまたがる様々なインプット・アウトプット・インタフェースとの互換性を提供しながら、多様な視覚的ターゲットを認識し、ローカライズする強力な能力を持つべきである。現在のシステムはこれらの要件を満たすことができず、通常、限定的なセマンティックカバレッジを持つ狭いデータドメインで訓練されたタスク固有のアーキテクチャを使用する。本稿では,データとモデリングという2つの側面から,これらの制限に対処する。まず、従来の人間のアノテーションやルールベースのアプローチに比べてスケーラビリティが大幅に向上する自動データエンジンを紹介します。これまでになく多様なセマンティックカテゴリと属性仕様をカバーする270万のイメージ-テキスト-マスクトレーレットを含む、これまでで最大のデータセットの作成を可能にしました。このデータ基盤に基づいて,表現セグメンテーションの参照を中心にしたタスク統一パラダイムを提案する。タスク固有のヘッドを持たない単一のモデルを使用して、分類、検出、セグメンテーション、接地など、視覚中心の幅広いタスクを効果的に処理する。データとモデリングに関するこれらのイノベーションを組み合わせることで、いくつかの地球観測知覚ベンチマーク上で新しいSoTAを確立する基盤モデルであるRemoteSAMが、Falcon、GeoChat、LHRS-Botといった他の基盤モデルよりもはるかに高い効率で性能を発揮する。モデルとデータはhttps://github.com/1e12Leon/RemoteSAMで公開されている。

関連論文リスト

GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。 GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。 GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文参考訳（メタデータ） (2025-11-19T17:45:02Z)
Disentanglement Beyond Static vs. Dynamic: A Benchmark and Evaluation Framework for Multi-Factor Sequential Representations [14.972702558607557]
6つの異なるデータセット間での複数要素の逐次的絡み合いを評価するための、最初の標準ベンチマークを導入する。本研究では,潜伏次元を意味因子と自動的に整列するポストホック潜伏探索段階を提案し,最先端の成果を達成できるクープマンモデルを提案する。私たちのコードはGitHubで、データセットとトレーニングされたモデルはHugging Faceで利用可能です。
論文参考訳（メタデータ） (2025-10-20T08:58:23Z)
ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文参考訳（メタデータ） (2025-02-05T15:22:20Z)
EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文参考訳（メタデータ） (2025-01-14T13:42:22Z)
Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文参考訳（メタデータ） (2024-07-22T12:59:57Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
One for All: Toward Unified Foundation Models for Earth Vision [24.358013737755822]
現在のリモートセンシング基礎モデルは、単一のモダリティまたは特定の空間解像度範囲に特化している。空間解像度の異なる複数のデータモダリティに対して,単一の共有トランスフォーマーバックボーンを用いるOFA-Netを導入する。提案手法は,12の異なる下流タスクに対して評価し,有望な性能を示す。
論文参考訳（メタデータ） (2024-01-15T08:12:51Z)
Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。 SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。この新しいアプローチはSAMを認識能力で強化する。
論文参考訳（メタデータ） (2023-10-03T07:19:59Z)
Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文参考訳（メタデータ） (2023-04-20T18:39:41Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文参考訳（メタデータ） (2021-12-27T16:16:35Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。