論文の概要: Atomizer: Generalizing to new modalities by breaking satellite images down to a set of scalars
- arxiv url: http://arxiv.org/abs/2506.13542v1
- Date: Mon, 16 Jun 2025 14:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.695218
- Title: Atomizer: Generalizing to new modalities by breaking satellite images down to a set of scalars
- Title(参考訳): Atomizer: 衛星画像をスカラーに分解することで新しいモダリティに一般化する
- Authors: Hugo Riffaud de Turckheim, Sylvain Lobry, Roberto Interdonato, Diego Marcos,
- Abstract要約: 既存のモデルは、固定された入力形式とモダリティ固有のエンコーダに依存しており、新しい構成を導入する際に再トレーニングを必要とする。
我々は、リモートセンシング画像をトークンの集合として表現し、それぞれがピクセルのスペクトル帯域値に対応するフレキシブルアーキテクチャであるAtomizerを紹介した。
Atomizerは標準的なモデルより優れており、様々な解像度と空間サイズで堅牢なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 5.369444016879545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing number of Earth observation satellites has led to increasingly diverse remote sensing data, with varying spatial, spectral, and temporal configurations. Most existing models rely on fixed input formats and modality-specific encoders, which require retraining when new configurations are introduced, limiting their ability to generalize across modalities. We introduce Atomizer, a flexible architecture that represents remote sensing images as sets of scalars, each corresponding to a spectral band value of a pixel. Each scalar is enriched with contextual metadata (acquisition time, spatial resolution, wavelength, and bandwidth), producing an atomic representation that allows a single encoder to process arbitrary modalities without interpolation or resampling. Atomizer uses structured tokenization with Fourier features and non-uniform radial basis functions to encode content and context, and maps tokens into a latent space via cross-attention. Under modality-disjoint evaluations, Atomizer outperforms standard models and demonstrates robust performance across varying resolutions and spatial sizes.
- Abstract(参考訳): 地球の観測衛星の増加により、様々な空間的、スペクトル的、時間的構成を持つ、より多様なリモートセンシングデータがもたらされた。
既存のモデルの多くは、固定された入力形式とモダリティ固有のエンコーダに依存しており、新しい構成が導入されたときに再トレーニングを必要とし、モダリティをまたいで一般化する能力を制限している。
我々は、リモートセンシング画像をスカラーの集合として表現し、それぞれがピクセルのスペクトル帯域値に対応するフレキシブルアーキテクチャであるAtomizerを紹介した。
それぞれのスカラーにはコンテキストメタデータ(取得時間、空間解像度、波長、帯域幅)が備わっており、単一のエンコーダが補間や再サンプリングなしに任意のモダリティを処理できる原子表現を生成する。
Atomizerは、Fourier機能を備えた構造化トークン化と、非一様ラジアル基底関数を使用して、コンテントとコンテキストをエンコードし、トークンをクロスアテンションを介して潜在空間にマップする。
モダリティ・ディジョイントの評価では、Atomizerは標準モデルより優れ、様々な解像度と空間サイズで堅牢な性能を示す。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis [75.25966323298003]
スペクトルイメージングは、医療や都市景観の理解など、様々な領域で有望な応用を提供する。
スペクトルカメラのチャネル次元と捕獲波長のばらつきは、AI駆動方式の開発を妨げる。
我々は、$textbfC$amera-$textbfA$gnostic $textbfR$esupervised $textbfL$のモデルである$textbfCARL$を紹介した。
論文 参考訳(メタデータ) (2025-04-27T13:06:40Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Mixed-granularity Implicit Representation for Continuous Hyperspectral Compressive Reconstruction [16.975538181162616]
本研究では,暗黙的ニューラル表現を用いた連続型ハイパースペクトル画像再構成法を提案する。
暗黙的な神経表現を活用することで、MGIRフレームワークは任意の望まれる空間スペクトル分解能の再構成を可能にする。
論文 参考訳(メタデータ) (2025-03-17T03:37:42Z) - Galileo: Learning Global & Local Features of Many Remote Sensing Modalities [34.71460539414284]
そこで本稿では,マスクモデルを用いて,柔軟な入力モダリティの集合にまたがるマルチスケール特徴を抽出する,自己教師付き学習アルゴリズムを提案する。
私たちのガリレオは、11のベンチマークと複数のタスクで衛星画像とピクセル時系列のSoTAスペシャリストモデルを上回る、単一のジェネラリストモデルです。
論文 参考訳(メタデータ) (2025-02-13T14:21:03Z) - CrossModalityDiffusion: Multi-Modal Novel View Synthesis with Unified Intermediate Representation [0.5242869847419834]
CrossModalityDiffusion(クロスモダリティ・ディフュージョン)は、シーン幾何学の知識を必要とせず、様々なモダリティにまたがる画像を生成するために設計されたモジュラーフレームワークである。
異なるモジュールを共同でトレーニングすることで、フレームワーク内のすべてのモダリティに対して一貫した幾何学的理解が保証されることを示す。
合成ShapeNet車のデータセット上でのCrossModalityDiffusionの機能を検証する。
論文 参考訳(メタデータ) (2025-01-16T20:56:32Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。