論文の概要: MIMRS: A Survey on Masked Image Modeling in Remote Sensing
- arxiv url: http://arxiv.org/abs/2504.03181v2
- Date: Mon, 07 Apr 2025 04:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 10:47:00.032770
- Title: MIMRS: A Survey on Masked Image Modeling in Remote Sensing
- Title(参考訳): MIMRS:リモートセンシングにおけるマスク画像モデリングに関する調査
- Authors: Shabnam Choudhury, Akhil Vasim, Michael Schmitt, Biplab Banerjee,
- Abstract要約: Masked Image Modeling (MIM)は、画像の一部をマスキングする自己教師付き学習技術である。
MIMは、クラウドカバー、オクルージョン、センサーの制限によって引き起こされる不完全なデータのような課題に対処する。
このサーベイ(MIMRS)は、リモートセンシングにおけるマスク画像モデリングのランドスケープを図解する先駆的な試みである。
- 参考スコア(独自算出の注目度): 12.28883063656968
- License:
- Abstract: Masked Image Modeling (MIM) is a self-supervised learning technique that involves masking portions of an image, such as pixels, patches, or latent representations, and training models to predict the missing information using the visible context. This approach has emerged as a cornerstone in self-supervised learning, unlocking new possibilities in visual understanding by leveraging unannotated data for pre-training. In remote sensing, MIM addresses challenges such as incomplete data caused by cloud cover, occlusions, and sensor limitations, enabling applications like cloud removal, multi-modal data fusion, and super-resolution. By synthesizing and critically analyzing recent advancements, this survey (MIMRS) is a pioneering effort to chart the landscape of mask image modeling in remote sensing. We highlight state-of-the-art methodologies, applications, and future research directions, providing a foundational review to guide innovation in this rapidly evolving field.
- Abstract(参考訳): Masked Image Modeling (MIM) は、画像の一部(ピクセル、パッチ、潜在表現など)をマスキングする自己教師付き学習技術であり、視覚的コンテキストを用いて行方不明情報を予測するためのトレーニングモデルである。
このアプローチは、事前学習に注釈のないデータを活用することで、視覚的理解の新たな可能性を解き放つ、自己教師型学習の基盤として現れてきた。
リモートセンシングでは、クラウドカバー、オクルージョン、センサーの制限によって引き起こされる不完全なデータのような課題に対処し、クラウド除去、マルチモーダルデータ融合、スーパーレゾリューションなどのアプリケーションを可能にする。
近年の進歩を合成し、批判的に分析することによって、この調査はリモートセンシングにおけるマスク画像モデリングのランドスケープをグラフ化するための先駆的な試みである。
我々は、最先端の方法論、応用、今後の研究方向性を強調し、この急速に発展する分野におけるイノベーションを導くための基礎的なレビューを提供する。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - MLOps for Scarce Image Data: A Use Case in Microscopic Image Analysis [1.0985060632689176]
本稿では, バイオメディカル画像解析を改良する新たな総合的アプローチを提案する。
これには、最高のモデル、データセット、モデル開発戦略を選択するためのフィンガープリントプロセスが含まれている。
予備的な結果を得るために、顕微鏡画像データセットにおける指紋認証の概念実証を行う。
論文 参考訳(メタデータ) (2023-09-27T09:39:45Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。