論文の概要: Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications
- arxiv url: http://arxiv.org/abs/2509.19087v1
- Date: Tue, 23 Sep 2025 14:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.899159
- Title: Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications
- Title(参考訳): Zero-Shot Multi-Spectral Learning:リモートセンシング用汎用マルチモーダルジェミニ2.5モデルの再検討
- Authors: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova,
- Abstract要約: ゼロショットのみのモードで新しいマルチスペクトルデータを導入するトレーニングフリーな手法を提案する。
我々は,土地被覆と土地利用分類のための一般的なリモートセンシングベンチマークにおけるアプローチのゼロショット性能の強い向上を観察する。
- 参考スコア(独自算出の注目度): 18.162960869640646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-spectral imagery plays a crucial role in diverse Remote Sensing applications including land-use classification, environmental monitoring and urban planning. These images are widely adopted because their additional spectral bands correlate strongly with physical materials on the ground, such as ice, water, and vegetation. This allows for more accurate identification, and their public availability from missions, such as Sentinel-2 and Landsat, only adds to their value. Currently, the automatic analysis of such data is predominantly managed through machine learning models specifically trained for multi-spectral input, which are costly to train and support. Furthermore, although providing a lot of utility for Remote Sensing, such additional inputs cannot be used with powerful generalist large multimodal models, which are capable of solving many visual problems, but are not able to understand specialized multi-spectral signals. To address this, we propose a training-free approach which introduces new multi-spectral data in a Zero-Shot-only mode, as inputs to generalist multimodal models, trained on RGB-only inputs. Our approach leverages the multimodal models' understanding of the visual space, and proposes to adapt to inputs to that space, and to inject domain-specific information as instructions into the model. We exemplify this idea with the Gemini2.5 model and observe strong Zero-Shot performance gains of the approach on popular Remote Sensing benchmarks for land cover and land use classification and demonstrate the easy adaptability of Gemini2.5 to new inputs. These results highlight the potential for geospatial professionals, working with non-standard specialized inputs, to easily leverage powerful multimodal models, such as Gemini2.5, to accelerate their work, benefiting from their rich reasoning and contextual capabilities, grounded in the specialized sensor data.
- Abstract(参考訳): マルチスペクトル画像は、土地利用分類、環境モニタリング、都市計画など多様なリモートセンシングアプリケーションにおいて重要な役割を担っている。
これらの画像は、追加のスペクトル帯が、氷、水、植生などの地上の物理的物質と強く相関しているため、広く採用されている。
これにより、より正確な識別が可能となり、Sentinel-2やLandsatのようなミッションからの公開は、その価値にのみ追加される。
現在、そのようなデータの自動分析は、トレーニングとサポートに費用がかかるマルチスペクトル入力のために特別に訓練された機械学習モデルによって主に管理されている。
さらに、リモートセンシングに多くのユーティリティを提供するが、このような追加入力は、多くの視覚的問題を解決することができるが、特殊なマルチスペクトル信号を理解することができない強力な汎用的な大規模マルチモーダルモデルでは利用できない。
そこで本研究では,RGBのみの入力でトレーニングされた一般マルチモーダルモデルに対する入力として,ゼロショットのみのモードで新しいマルチスペクトルデータを導入するトレーニングフリーアプローチを提案する。
本手法は,視覚空間に対するマルチモーダルモデルの理解を活用し,その空間への入力に適応し,モデルに指示としてドメイン固有情報を注入することを提案する。
我々は、このアイデアをGemini2.5モデルで実証し、ランドカバーとランドユース分類のための一般的なリモートセンシングベンチマークに対するアプローチのZero-Shotパフォーマンス向上を強く観察し、新しい入力へのGemini2.5の容易な適応性を実証する。
これらの結果は,Gemini2.5のような強力なマルチモーダルモデルを容易に活用して作業の加速を図り,特殊なセンサデータに基づくリッチな推論とコンテキスト能力の恩恵を受けられるような,非標準の特殊入力を扱う地理空間専門家の可能性を浮き彫りにしている。
関連論文リスト
- TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - Galileo: Learning Global & Local Features of Many Remote Sensing Modalities [34.71460539414284]
そこで本稿では,マスクモデルを用いて,柔軟な入力モダリティの集合にまたがるマルチスケール特徴を抽出する,自己教師付き学習アルゴリズムを提案する。
私たちのガリレオは、11のベンチマークと複数のタスクで衛星画像とピクセル時系列のSoTAスペシャリストモデルを上回る、単一のジェネラリストモデルです。
論文 参考訳(メタデータ) (2025-02-13T14:21:03Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Bridging Remote Sensors with Multisensor Geospatial Foundation Models [15.289711240431107]
msGFMは4つのキーセンサーからのデータを統合する多センサ地理空間基盤モデルである。
同一の位置情報から得られるデータに対して、我々のモデルは革新的なクロスセンサー事前学習アプローチを採用している。
msGFMは、シングルセンサーとマルチセンサーの両方の下流タスクにおいて、高い習熟度を示した。
論文 参考訳(メタデータ) (2024-04-01T17:30:56Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z) - SEnSeI: A Deep Learning Module for Creating Sensor Independent Cloud
Masks [0.7340845393655052]
我々は、新しいニューラルネットワークアーキテクチャー、Sensor Independence(SEnSeI)のためのスペクトルエンコーダを導入する。
クラウドマスキングの問題,既存のいくつかのデータセット,Sentinel-2用の新たな無償データセットなどに注目した。
我々のモデルは、訓練した衛星(Sentinel-2とLandsat 8)の最先端性能を達成し、Landsat 7, Per'uSat-1、Sentinel-3 SLSTRのようなトレーニング中に観測されていないセンサーに外挿することができる。
論文 参考訳(メタデータ) (2021-11-16T10:47:10Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。