論文の概要: One for All: Toward Unified Foundation Models for Earth Vision
- arxiv url: http://arxiv.org/abs/2401.07527v1
- Date: Mon, 15 Jan 2024 08:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:45:43.080526
- Title: One for All: Toward Unified Foundation Models for Earth Vision
- Title(参考訳): 一つは、地球ビジョンのための統一基盤モデルを目指して
- Authors: Zhitong Xiong, Yi Wang, Fahong Zhang and Xiao Xiang Zhu
- Abstract要約: 現在のリモートセンシング基礎モデルは、単一のモダリティまたは特定の空間解像度範囲に特化している。
空間解像度の異なる複数のデータモダリティに対して,単一の共有トランスフォーマーバックボーンを用いるOFA-Netを導入する。
提案手法は,12の異なる下流タスクに対して評価し,有望な性能を示す。
- 参考スコア(独自算出の注目度): 26.609380140722315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models characterized by extensive parameters and trained on
large-scale datasets have demonstrated remarkable efficacy across various
downstream tasks for remote sensing data. Current remote sensing foundation
models typically specialize in a single modality or a specific spatial
resolution range, limiting their versatility for downstream datasets. While
there have been attempts to develop multi-modal remote sensing foundation
models, they typically employ separate vision encoders for each modality or
spatial resolution, necessitating a switch in backbones contingent upon the
input data. To address this issue, we introduce a simple yet effective method,
termed OFA-Net (One-For-All Network): employing a single, shared Transformer
backbone for multiple data modalities with different spatial resolutions. Using
the masked image modeling mechanism, we pre-train a single Transformer backbone
on a curated multi-modal dataset with this simple design. Then the backbone
model can be used in different downstream tasks, thus forging a path towards a
unified foundation backbone model in Earth vision. The proposed method is
evaluated on 12 distinct downstream tasks and demonstrates promising
performance.
- Abstract(参考訳): 大規模データセット上でトレーニングされた広範なパラメータを特徴とする基礎モデルは、リモートセンシングデータに対するさまざまな下流タスクにおいて顕著な効果を示している。
現在のリモートセンシング基礎モデルは、典型的には単一のモダリティまたは特定の空間分解能範囲を専門とし、下流データセットの汎用性を制限する。
マルチモーダルリモートセンシング基盤モデルの開発は試みられているが、通常、各モードや空間解像度に別々の視覚エンコーダを使用し、入力データに基づいてバックボーンのスイッチを必要とする。
この問題に対処するために、単一共有トランスフォーマーバックボーンを用いて、空間解像度の異なる複数のデータモダリティを実現する、単純なOFA-Net(One-For-All Network)手法を提案する。
マスク付き画像モデリング機構を使用して、この単純な設計で、キュレートされたマルチモーダルデータセット上で単一のトランスフォーマーバックボーンを事前トレーニングする。
その後、バックボーンモデルは、異なるダウンストリームタスクで使用できるため、地球ビジョンにおける統一基盤バックボーンモデルへの道を開くことができる。
提案手法は,12個のダウンストリームタスクで評価し,有望な性能を示す。
関連論文リスト
- MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks [11.681342476516267]
汎用情報マッピングとインタラクションに基づく分散センシング基礎モデル(RS-DFM)を提案する。
このモデルは、複数のプラットフォームにわたるオンライン協調認識と、さまざまな下流タスクを実現することができる。
本稿では、高周波・低周波特徴情報を分離するデュアルブランチ情報圧縮モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-11T07:46:47Z) - ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation [37.24514001359966]
連続神経場として表現される複数の形状を、従来より高い精度で符号化する方法を示す。
我々は、データセット毎に1つのネットワークで、最先端のマルチシーン再構成と圧縮結果を実証する。
論文 参考訳(メタデータ) (2024-06-06T17:55:34Z) - Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。
MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。
MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文 参考訳(メタデータ) (2024-05-28T07:24:56Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and
Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。
本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。
複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文 参考訳(メタデータ) (2023-11-16T02:29:37Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Multi-Domain Adversarial Feature Generalization for Person
Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。
複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。
また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文 参考訳(メタデータ) (2020-11-25T08:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。