論文の概要: RAMEN: Resolution-Adjustable Multimodal Encoder for Earth Observation
- arxiv url: http://arxiv.org/abs/2512.05025v1
- Date: Thu, 04 Dec 2025 17:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.303379
- Title: RAMEN: Resolution-Adjustable Multimodal Encoder for Earth Observation
- Title(参考訳): RAMEN:地球観測のための解像度調整可能なマルチモーダルエンコーダ
- Authors: Nicolas Houdré, Diego Marcos, Hugo Riffaud de Turckheim, Dino Ienco, Laurent Wendling, Camille Kurtz, Sylvain Lobry,
- Abstract要約: RAMENは解像度調整可能なマルチモーダルエンコーダで、EOデータ間で共有された視覚的表現を学習する。
多様な情報源から得られたマスク付きマルチモーダルEOデータを再構成する単一統一トランスフォーマーエンコーダを訓練する。
RAMENは、コミュニティ標準のPANGAEAベンチマークにおいて、より大きな最先端モデルを上回っている。
- 参考スコア(独自算出の注目度): 12.826798868837557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Earth observation (EO) data spans a wide range of spatial, spectral, and temporal resolutions, from high-resolution optical imagery to low resolution multispectral products or radar time series. While recent foundation models have improved multimodal integration for learning meaningful representations, they often expect fixed input resolutions or are based on sensor-specific encoders limiting generalization across heterogeneous EO modalities. To overcome these limitations we introduce RAMEN, a resolution-adjustable multimodal encoder that learns a shared visual representation across EO data in a fully sensor-agnostic manner. RAMEN treats the modality and spatial and temporal resolutions as key input data features, enabling coherent analysis across modalities within a unified latent space. Its main methodological contribution is to define spatial resolution as a controllable output parameter, giving users direct control over the desired level of detail at inference and allowing explicit trade-offs between spatial precision and computational cost. We train a single, unified transformer encoder reconstructing masked multimodal EO data drawn from diverse sources, ensuring generalization across sensors and resolutions. Once pretrained, RAMEN transfers effectively to both known and unseen sensor configurations and outperforms larger state-of-the-art models on the community-standard PANGAEA benchmark, containing various multi-sensor and multi-resolution downstream tasks. Our code and pretrained model are available at https://github.com/nicolashoudre/RAMEN.
- Abstract(参考訳): 地球観測(EO)データは、高解像度の光学画像から低解像度のマルチスペクトル製品やレーダ時系列まで、幅広い空間、スペクトル、時間分解能にまたがる。
最近の基礎モデルは、意味のある表現を学習するためのマルチモーダル統合を改善しているが、それらはしばしば、固定された入力解像度を期待するか、あるいは、異種EOモダリティの一般化を制限するセンサ固有のエンコーダに基づいている。
これらの制限を克服するために、完全にセンサに依存しない方法でEOデータ間の共有視覚表現を学習する、解像度調整可能なマルチモーダルエンコーダであるRAMENを導入する。
RAMENは、モダリティと空間分解能と時間分解能をキー入力データの特徴として扱い、統一された潜在空間内のモダリティ間のコヒーレント解析を可能にする。
その主な方法論は、空間分解能を制御可能な出力パラメータとして定義し、ユーザーは推論時に所望の詳細レベルを直接制御し、空間精度と計算コストの明確なトレードオフを可能にすることである。
我々は、様々な情報源から得られたマスク付きマルチモーダルEOデータを再構成し、センサと解像度をまたいだ一般化を保証する、単一の統一トランスフォーマーエンコーダを訓練する。
事前トレーニング後、RAMENは、既知のセンサー構成と見えないセンサー構成の両方に効果的に移行し、コミュニティ標準のPANGAEAベンチマークにおいて、様々なマルチセンサーとマルチ解像度ダウンストリームタスクを含む、より大きな最先端モデルを上回るパフォーマンスを発揮する。
私たちのコードと事前訓練されたモデルは、https://github.com/nicolashoudre/RAMEN.comで公開されています。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion [2.7745600113170994]
ホーム環境における包括的行動認識のための新しいベンチマークであるMultiSensor-Homeデータセットを紹介する。
また,マルチモーダルマルチビュー変換器を用いたセンサフュージョン (MultiTSF) 法を提案する。
論文 参考訳(メタデータ) (2025-04-03T05:23:08Z) - PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。