Fugu-MT 論文翻訳(概要): A Causally Informed Pretraining Approach for Multimodal Foundation Models: Applications in Remote Sensing

論文の概要: A Causally Informed Pretraining Approach for Multimodal Foundation Models: Applications in Remote Sensing

arxiv url: http://arxiv.org/abs/2407.19660v3
Date: Tue, 18 Feb 2025 03:39:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 15:46:50.228632
Title: A Causally Informed Pretraining Approach for Multimodal Foundation Models: Applications in Remote Sensing
Title（参考訳）: マルチモーダル基礎モデルの因果的インフォームド事前学習手法:リモートセンシングへの応用
Authors: Praveen Ravirathinam, Ankush Khandelwal, Rahul Ghosh, Vipin Kumar,
Abstract要約: 大規模データを用いた基礎モデルの事前学習のための強力なパラダイムとして,自己教師型学習が登場している。条件生成タスクとして予測をモデル化する新しい事前学習タスクであるCausally Informed Variable-Step Forecasting (CI-VSF)を提案する。このような事前学習は,予測と予測の両方に微調整を施すと,性能が向上することを示す。
参考スコア（独自算出の注目度）: 16.824262496666893
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised learning has emerged as a powerful paradigm for pretraining foundation models using large-scale data. Existing pretraining approaches predominantly rely on masked reconstruction or next-token prediction strategies, demonstrating strong performance across various downstream tasks, including geoscience applications. However, these approaches do not fully capture the causal interplay between different geospatial and environmental variables. To address this limitation, we propose Causally Informed Variable-Step Forecasting (CI-VSF), a novel pretraining task that models forecasting as a conditional generation task, where driver variables (e.g., weather) inform the prediction of response variables (e.g., satellite imagery). We demonstrate that pretraining in such a fashion leads to enhanced performance when finetuned on both prediction (e.g., crop mapping, missing image prediction, soil moisture estimation) and forecasting (e.g., future image forecasting, soil moisture forecasting) downstream tasks when compared to other pretraining approaches. While we use remote sensing as our main application to demonstrate the efficacy of our proposed pretraining strategy over existing paradigms, it is applicable to any domain that involves known causal relationships amongst a set of variables.
Abstract（参考訳）: 大規模データを用いた基礎モデルの事前学習のための強力なパラダイムとして,自己教師型学習が登場している。既存の事前訓練アプローチは、主にマスクされた再構築や次世代の予測戦略に依存しており、地球科学の応用を含む下流の様々なタスクに強いパフォーマンスを示す。しかし、これらのアプローチは、異なる地理空間変数と環境変数の間の因果関係を完全には捉えていない。この制限に対処するために、条件生成タスクとして予測をモデル化する新しい事前訓練タスクであるCausally Informed Variable-Step Forecasting (CI-VSF)を提案する。このような方法での事前訓練は、他の事前訓練手法と比較して、予測(例えば、作物マッピング、画像予測の欠如、土壌水分推定)と予測(例えば、将来の画像予測、土壌水分予測)の両方を微調整した場合、性能が向上することを示した。我々は、既存のパラダイムに対する事前学習戦略の有効性を示すために、リモートセンシングをメインのアプリケーションとして使用していますが、変数の集合間の既知の因果関係を含むあらゆる領域に適用できます。

関連論文リスト

Goal-Oriented Time-Series Forecasting: Foundation Framework Design [11.999600538978044]
時系列予測は、しばしば、現実のアプリケーションの特定の要求を無視して、予測エラーを最小限にすることだけに焦点を当てる。本稿では、エンドアプリケーションで特定される予測範囲の重要性に基づいて、予測モデルがフォーカスを動的に調整できる新しいトレーニング手法を提案する。
論文参考訳（メタデータ） (2025-04-24T12:34:43Z)
On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-10-21T18:31:04Z)
Improving satellite imagery segmentation using multiple Sentinel-2 revisits [0.0]
我々は、微調整された事前学習されたリモートセンシングモデルのフレームワークにおいて、リビジョンを使用する最善の方法を探る。モデル潜在空間における複数の再試行からの融合表現は、他の再試行法よりも優れていることが判明した。 SWINトランスフォーマーベースのアーキテクチャは、U-netやViTベースのモデルよりも優れている。
論文参考訳（メタデータ） (2024-09-25T21:13:33Z)
Motion Forecasting via Model-Based Risk Minimization [8.766024024417316]
複数モデルの予測に基づく軌道予測に適用可能な新しいサンプリング手法を提案する。まず、予測確率に基づく従来のサンプリングは、モデル間のアライメントの欠如により性能を低下させることができることを示す。基礎学習者として最先端モデルを用いて,最適軌道サンプリングのための多種多様な効果的なアンサンブルを構築した。
論文参考訳（メタデータ） (2024-09-16T09:03:28Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文参考訳（メタデータ） (2024-01-01T03:45:07Z)
DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。 MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-12-11T18:38:28Z)
PreDiff: Precipitation Nowcasting with Latent Diffusion Models [28.52267957954304]
確率的予測が可能な条件付き潜伏拡散モデルを開発した。予測をドメイン固有の物理的制約と整合させるために、明示的な知識アライメント機構を組み込んだ。
論文参考訳（メタデータ） (2023-07-19T19:19:13Z)
Towards Motion Forecasting with Real-World Perception Inputs: Are End-to-End Approaches Competitive? [93.10694819127608]
実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案する。我々の詳細な調査では、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップが明らかになりました。
論文参考訳（メタデータ） (2023-06-15T17:03:14Z)
Exploring the Application of Large-scale Pre-trained Models on Adverse Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文参考訳（メタデータ） (2023-06-15T10:06:13Z)
Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。逆動力学モデリングはこの設定に適していると主張する。
論文参考訳（メタデータ） (2023-05-26T14:40:46Z)
Multi-modal learning for geospatial vegetation forecasting [1.8180482634934092]
我々は,高分解能植生予測に特化して設計された最初のデータセットであるGreenEarthNetを紹介する。また、Sentinel 2衛星画像から植生の緑度を予測するための新しい深層学習手法であるContextformerを提案する。我々の知る限り、この研究は、季節的サイクルを超えた異常を捉えることができる微細な解像度で大陸規模の植生モデリングのための最初のモデルを示す。
論文参考訳（メタデータ） (2023-03-28T17:59:05Z)
Towards Out-of-Distribution Sequential Event Prediction: A Causal Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-24T07:54:13Z)
RelPose: Predicting Probabilistic Relative Rotation for Single Objects in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文参考訳（メタデータ） (2022-08-11T17:59:59Z)
SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文参考訳（メタデータ） (2022-07-17T01:35:29Z)
Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-29T07:49:48Z)
A Trainable Spectral-Spatial Sparse Coding Model for Hyperspectral Image Restoration [36.525810477650026]
ハイパースペクトルイメージングは様々な用途に新しい視点を提供する。地上に正確な「クリーン」ハイパースペクトル信号がないため、修復作業は困難である。本稿では、疎結合な符号化原理に基づくハイブリッドアプローチを提唱する。
論文参考訳（メタデータ） (2021-11-18T14:16:04Z)
Contrastive Multiview Coding with Electro-optics for SAR Semantic Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-08-31T23:55:41Z)
RAIN: Reinforced Hybrid Attention Inference Network for Motion Forecasting [34.54878390622877]
本稿では,ハイブリットアテンション機構に基づく動的キー情報の選択とランク付けを行う汎用的な動き予測フレームワークを提案する。このフレームワークは、マルチエージェント軌道予測と人間の動き予測タスクを処理するためにインスタンス化される。我々は,異なる領域における合成シミュレーションと運動予測ベンチマークの両方について,その枠組みを検証した。
論文参考訳（メタデータ） (2021-08-03T06:30:30Z)
Enhancing Photorealism Enhancement [83.88433283714461]
本稿では,畳み込みネットワークを用いた合成画像のリアリズム向上手法を提案する。一般的に使用されるデータセットのシーンレイアウトの分布を分析し、重要な方法で異なることを見つけます。近年のイメージ・ツー・イメージ翻訳法と比較して,安定性とリアリズムの大幅な向上が報告されている。
論文参考訳（メタデータ） (2021-05-10T19:00:49Z)
SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文参考訳（メタデータ） (2020-07-26T08:17:10Z)
Bridging the Gap Between Training and Inference for Spatio-Temporal Forecasting [16.06369357595426]
本稿では,S-temporal sequence forecastingのトレーニングと推論のギャップを埋めるために,時間的プログレッシブ・グロース・サンプリングというカリキュラムベースの新しい戦略を提案する。実験結果から,提案手法は長期依存をモデル化し,2つの競合データセットに対するベースラインアプローチより優れていることが示された。
論文参考訳（メタデータ） (2020-05-19T10:14:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。