論文の概要: THOR: A Versatile Foundation Model for Earth Observation Climate and Society Applications
- arxiv url: http://arxiv.org/abs/2601.16011v1
- Date: Thu, 22 Jan 2026 14:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.625969
- Title: THOR: A Versatile Foundation Model for Earth Observation Climate and Society Applications
- Title(参考訳): THOR:地球観測気候と社会応用のためのバーサタイル基礎モデル
- Authors: Theodor Forgaard, Jarle H. Reksten, Anders U. Waldeland, Valerio Marsocci, Nicolas Longépé, Michael Kampffmeyer, Arnt-Børre Salberg,
- Abstract要約: THOR は入力の不均一性とデプロイメントの剛性の両方を解決する "Computeadaptive" 基盤モデルである。
我々は、新しいランダム化パッチと入力画像サイズ戦略を用いて、THORを事前訓練する。
これにより、どんなパッチサイズでも推論してトレーニング済みの重みのセットをデプロイすることが可能になり、再トレーニングせずに計算コストと特徴解決の間の動的なトレードオフが可能になる。
- 参考スコア(独自算出の注目度): 9.852915112122567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Earth observation foundation models are architecturally rigid, struggle with heterogeneous sensors and are constrained to fixed patch sizes. This limits their deployment in real-world scenarios requiring flexible computeaccuracy trade-offs. We propose THOR, a "computeadaptive" foundation model that solves both input heterogeneity and deployment rigidity. THOR is the first architecture to unify data from Copernicus Sentinel-1, -2, and -3 (OLCI & SLSTR) satellites, processing their native 10 m to 1000 m resolutions in a single model. We pre-train THOR with a novel randomized patch and input image size strategy. This allows a single set of pre-trained weights to be deployed at inference with any patch size, enabling a dynamic trade-off between computational cost and feature resolution without retraining. We pre-train THOR on THOR Pretrain, a new, large-scale multi-sensor dataset and demonstrate state-of-the-art performance on downstream benchmarks, particularly in data-limited regimes like the PANGAEA 10% split, validating that THOR's flexible feature generation excels for diverse climate and society applications.
- Abstract(参考訳): 現在の地球観測基盤モデルは、構造的に剛性があり、異質なセンサーと競合し、固定されたパッチサイズに制約されている。
これにより、フレキシブルな計算精度トレードオフを必要とする現実シナリオへのデプロイメントが制限される。
我々は、入力の不均一性とデプロイメントの剛性の両方を解決する「計算適応」基盤モデルTHORを提案する。
THORはCopernicus Sentinel-1, -2, -3(OLCI & SLSTR)衛星からのデータを統合する最初のアーキテクチャであり、ネイティブの10mから1000mの解像度を単一のモデルで処理している。
我々は、新しいランダム化パッチと入力画像サイズ戦略を用いて、THORを事前訓練する。
これにより、どんなパッチサイズでも推論してトレーニング済みの重みのセットをデプロイすることが可能になり、再トレーニングせずに計算コストと特徴解決の間の動的なトレードオフが可能になる。
新たな大規模マルチセンサデータセットであるTHOR PretrainでTHORを事前トレーニングし、ダウンストリームベンチマーク、特にPANGAEA 10%の分割のようなデータ限定型システムにおいて、THORのフレキシブルな特徴生成が多様な気候や社会の応用に優れていることを検証した。
関連論文リスト
- UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass [83.7071371474926]
UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。
我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。
本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-01-03T16:06:27Z) - Agentic Physical AI toward a Domain-Specific Foundation Model for Nuclear Reactor Control [3.9610256846446554]
最近のベンチマークでは、視覚言語モデルは基本的な量物理学のタスクで50~53%の精度しか達成していない。
パーセプション中心のアーキテクチャはパラメータ空間の模倣を最適化するが、セーフティクリティカルな制御は結果空間の保証を要求する。
本稿では,エージェント物理AIとして動作するコンパクト言語モデルを導入することにより,ドメイン固有基盤モデルに対する根本的に異なる経路を示す。
論文 参考訳(メタデータ) (2025-12-29T08:26:27Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文 参考訳(メタデータ) (2025-10-20T16:15:03Z) - PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。
ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文 参考訳(メタデータ) (2025-07-16T11:25:03Z) - Trajectory World Models for Heterogeneous Environments [67.27233466954814]
環境を横断するセンサーやアクチュエータの不均一性は、大規模な事前訓練された世界モデルを構築する上で大きな課題となる。
我々は80の環境から100万以上のトラジェクトリからなる統一データセットUniTrajを紹介した。
また,様々なセンサやアクチュエータ情報を扱える新しいアーキテクチャであるTrajWorldを提案する。
論文 参考訳(メタデータ) (2025-02-03T13:59:08Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。