Fugu-MT 論文翻訳(概要): How Can Multimodal Remote Sensing Datasets Transform Classification via SpatialNet-ViT?

論文の概要: How Can Multimodal Remote Sensing Datasets Transform Classification via SpatialNet-ViT?

arxiv url: http://arxiv.org/abs/2506.22501v1
Date: Wed, 25 Jun 2025 10:50:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.425522
Title: How Can Multimodal Remote Sensing Datasets Transform Classification via SpatialNet-ViT?
Title（参考訳）: 空間ネット-ViTを用いたマルチモーダルリモートセンシングデータセットの分類
Authors: Gautam Siddharth Kashyap, Manaswi Kulahara, Nipun Joshi, Usman Naseem,
Abstract要約: 視覚変換器(ViT)とマルチタスク学習(MTL)の力を利用する新しいモデルであるSpatialNet-ViTを提案する。この統合されたアプローチは、空間認識と文脈理解を組み合わせることで、分類精度と拡張性の両方を改善します。
参考スコア（独自算出の注目度）: 4.148953499574201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Remote sensing datasets offer significant promise for tackling key classification tasks such as land-use categorization, object presence detection, and rural/urban classification. However, many existing studies tend to focus on narrow tasks or datasets, which limits their ability to generalize across various remote sensing classification challenges. To overcome this, we propose a novel model, SpatialNet-ViT, leveraging the power of Vision Transformers (ViTs) and Multi-Task Learning (MTL). This integrated approach combines spatial awareness with contextual understanding, improving both classification accuracy and scalability. Additionally, techniques like data augmentation, transfer learning, and multi-task learning are employed to enhance model robustness and its ability to generalize across diverse datasets
Abstract（参考訳）: リモートセンシングデータセットは、土地利用分類、オブジェクトの存在検出、農村/都市分類といった重要な分類タスクに対処する上で、重要な約束を提供する。しかし、既存の多くの研究は狭いタスクやデータセットに重点を置いており、様々なリモートセンシング分類課題にまたがる一般化の能力を制限する傾向にある。そこで我々は,視覚変換器(ViT)とマルチタスク学習(MTL)の力を活用した新しいモデルであるSpatialNet-ViTを提案する。この統合されたアプローチは、空間認識と文脈理解を組み合わせることで、分類精度と拡張性の両方を改善します。さらに、モデルロバスト性と多様なデータセットをまたいだ一般化能力を高めるために、データ拡張、転送学習、マルチタスク学習などのテクニックが採用されている。

関連論文リスト

Temporal-Spectral-Spatial Unified Remote Sensing Dense Prediction [62.376936772702905]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。 STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。トレーニング可能なタスクの埋め込みにモデルを条件付けすることで、単一のアーキテクチャ内で異なる密集した予測タスクを統一する。
論文参考訳（メタデータ） (2025-05-18T07:39:17Z)
A Survey on Remote Sensing Foundation Models: From Vision to Multimodality [35.532200523631765]
リモートセンシングのための視覚とマルチモーダル基礎モデルは、インテリジェントな地理空間データ解釈能力を大幅に向上させた。データタイプの多様性、大規模アノテートデータセットの必要性、マルチモーダル融合技術の複雑さは、これらのモデルの効果的なデプロイに重大な障害をもたらす。本稿では、リモートセンシングのための最先端のビジョンモデルとマルチモーダル基礎モデルについて、アーキテクチャ、トレーニング方法、データセット、アプリケーションシナリオに焦点をあててレビューする。
論文参考訳（メタデータ） (2025-03-28T01:57:35Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
Learning Transferable Adversarial Robust Representations via Multi-view Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-10-19T11:48:01Z)
Learning Prototype-oriented Set Representations for Meta-Learning [85.19407183975802]
集合構造データから学ぶことは、近年注目を集めている根本的な問題である。本稿では,既存の要約ネットワークを改善するための新しい最適輸送方式を提案する。さらに、少数ショット分類と暗黙的メタ生成モデリングの事例にインスタンス化する。
論文参考訳（メタデータ） (2021-10-18T09:49:05Z)
Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文参考訳（メタデータ） (2020-09-28T11:57:43Z)
X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。 X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文参考訳（メタデータ） (2020-06-24T15:29:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。