論文の概要: EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data
- arxiv url: http://arxiv.org/abs/2602.12177v1
- Date: Thu, 12 Feb 2026 17:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.949949
- Title: EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data
- Title(参考訳): EO-VAE:地球観測データのためのマルチセンサトケナイザを目指して
- Authors: Nils Lehmann, Yi Wang, Zhitong Xiong, Xiaoxiang Zhu,
- Abstract要約: 最先端の生成画像とビデオモデルは、高次元入力をより効率的な潜在表現に圧縮するトークン化器に大きく依存している。
EO-VAEは,地球観測領域の基本的なトークン化機構として設計された多センサ変分オートエンコーダである。
- 参考スコア(独自算出の注目度): 19.18955300820542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art generative image and video models rely heavily on tokenizers that compress high-dimensional inputs into more efficient latent representations. While this paradigm has revolutionized RGB generation, Earth observation (EO) data presents unique challenges due to diverse sensor specifications and variable spectral channels. We propose EO-VAE, a multi-sensor variational autoencoder designed to serve as a foundational tokenizer for the EO domain. Unlike prior approaches that train separate tokenizers for each modality, EO-VAE utilizes a single model to encode and reconstruct flexible channel combinations via dynamic hypernetworks. Our experiments on the TerraMesh dataset demonstrate that EO-VAE achieves superior reconstruction fidelity compared to the TerraMind tokenizers, establishing a robust baseline for latent generative modeling in remote sensing.
- Abstract(参考訳): 最先端の生成画像とビデオモデルは、高次元入力をより効率的な潜在表現に圧縮するトークン化器に大きく依存している。
このパラダイムはRGB生成に革命をもたらしたが、地球観測(EO)データには多様なセンサ仕様と可変スペクトルチャネルによる固有の課題がある。
EOドメインの基本的なトークン化機能として設計されたマルチセンサ変分オートエンコーダであるEO-VAEを提案する。
EO-VAEは、各モダリティに対して別々のトークン化器を訓練する以前のアプローチとは異なり、動的ハイパーネットを通して柔軟なチャネルの組み合わせをエンコードし再構築するために単一のモデルを使用している。
TerraMesh データセットを用いた実験により,EO-VAE はTerraMind トークン化器よりも優れた再現性を実現し,リモートセンシングにおける潜在生成モデルのための堅牢なベースラインを確立した。
関連論文リスト
- Latent Dirichlet Transformer VAE for Hyperspectral Unmixing with Bundled Endmembers [1.9336815376402718]
ハイパースペクトルアンミックスのための潜在ディリクレ変換器変分オートエンコーダ(LDVAE-T)を提案する。
我々のモデルは、トランスフォーマーアーキテクチャのグローバルコンテキストモデリング機能と、潜在空間に先立ってディリクレによって課される物理的に意味のある制約を組み合わせる。
我々は、Samson、Jasper Ridge、HYDICE Urbanの3つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-11-21T20:15:37Z) - HyperAIRI: a plug-and-play algorithm for precise hyperspectral image reconstruction in radio interferometry [9.387735688431862]
本稿では,ハイパースペクトルの拡張であるHyperAIRIを紹介する。
それぞれのスペクトルチャネルについて、HyperAIRI denoiserは現在の画像推定を入力として、隣接する2つのチャネルとスペクトルインデックスマップを推定する。
様々なダイナミックレンジに対応するため,事前に訓練したデノイザーの棚を組み立て,それぞれが特定のダイナミックレンジに合わせて調整する。
論文 参考訳(メタデータ) (2025-10-16T23:49:20Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation [47.52225194259896]
地球観測(EO)における多様な視覚タスクのための統一多モード基盤フレームワークを提案する。
神経可塑性にインスパイアされたDOFAは、波長条件の動的ハイパーネットワークを使用して、5つの異なる衛星センサーからの入力を柔軟に処理する。
センサ・ディバースEO領域における汎用視覚モデルの基礎としてのDOFAの可能性を示す。
論文 参考訳(メタデータ) (2024-03-22T17:11:47Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。