論文の概要: DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
- arxiv url: http://arxiv.org/abs/2503.16426v1
- Date: Thu, 20 Mar 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:38.475467
- Title: DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
- Title(参考訳): DynamicVis: リモートセンシング画像理解のための効率的で汎用的なビジュアルファウンデーションモデル
- Authors: Keyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: DynamicVisはリモートセンシング画像のための動的視覚認識基盤モデルである。
選択状態空間モデルに基づく新しい動的領域知覚バックボーンを統合する。
97msのレイテンシ(ViTの6%)と833MBのGPUメモリ(ViTの3%)を備えた処理(2048x2048)ピクセルのマルチレベルの特徴モデリングを実現している。
- 参考スコア(独自算出の注目度): 25.32283897448209
- License:
- Abstract: The advancement of remote sensing technology has improved the spatial resolution of satellite imagery, facilitating more detailed visual representations for diverse interpretations. However, existing methods exhibit limited generalization capabilities across varied applications. While some contemporary foundation models demonstrate potential, they are hindered by insufficient cross-task adaptability and primarily process low-resolution imagery of restricted sizes, thus failing to fully exploit high-resolution data or leverage comprehensive large-scene semantics. Crucially, remote sensing imagery differs fundamentally from natural images, as key foreground targets (eg., maritime objects, artificial structures) often occupy minimal spatial proportions (~1%) and exhibit sparse distributions. Efficiently modeling cross-task generalizable knowledge from lengthy 2D tokens (~100,000) poses a significant challenge yet remains critical for remote sensing image understanding. Motivated by the selective attention mechanisms inherent to the human visual system, we propose DynamicVis, a dynamic visual perception foundation model for remote sensing imagery. The framework integrates a novel dynamic region perception backbone based on the selective state space model, which strategically balances localized detail extraction with global contextual integration, enabling computationally efficient encoding of large-scale data while maintaining architectural scalability. To enhance cross-task knowledge transferring, we introduce a multi-instance learning paradigm utilizing meta-embedding representations, trained on million-scale region-level annotations. Evaluations across nine downstream tasks demonstrate the model's versatility. DynamicVis achieves multi-level feature modeling with exceptional efficiency, processing (2048x2048) pixels with 97 ms latency (6% of ViT's) and 833 MB GPU memory (3% of ViT's).
- Abstract(参考訳): リモートセンシング技術の進歩により、衛星画像の空間分解能が向上し、多様な解釈のためのより詳細な視覚的表現が容易になった。
しかし、既存の手法は様々なアプリケーションにまたがる限定的な一般化能力を示す。
現代の基盤モデルは潜在的な可能性を示しているが、それらはクロスタスク適応性の不足によって妨げられ、主に制限されたサイズの低解像度画像を処理するため、高解像度のデータを完全に活用したり、包括的な大規模セマンティクスを活用できない。
重要なことに、リモートセンシング画像は、キーフォアグラウンドターゲット(例えば海洋オブジェクトや人工構造物)が最小の空間比(〜1%)を占め、スパース分布を示すため、自然画像と根本的に異なる。
長い2Dトークン(〜100,000)からのクロスタスクの一般化可能な知識を効果的にモデル化することは、リモートセンシング画像理解にとって重要な課題である。
人間の視覚系に固有の選択的注意機構を動機として,リモートセンシング画像のための動的視覚認識基盤モデルであるDynamicVisを提案する。
このフレームワークは、選択状態空間モデルに基づく新しい動的領域認識バックボーンを統合し、局所化された詳細抽出とグローバルコンテキストの統合を戦略的にバランスさせ、アーキテクチャのスケーラビリティを維持しながら大規模データの計算効率の良い符号化を可能にする。
クロスタスクな知識伝達を強化するため,メタ埋め込み表現を利用したマルチインスタンス学習パラダイムを導入し,100万の領域レベルのアノテーションをトレーニングした。
9つの下流タスクに対する評価は、モデルの汎用性を示している。
DynamicVisは、例外的な効率、処理(2048x2048)、97msのレイテンシ(ViTの6%)、833MBのGPUメモリ(ViTの3%)を備えたマルチレベルの特徴モデリングを実現する。
関連論文リスト
- Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - Cascaded Multi-Scale Attention for Enhanced Multi-Scale Feature Extraction and Interaction with Low-Resolution Images [20.140898354987353]
本稿では,低解像度入力を効果的に処理するための新しいアテンション機構,CMSAを提案する。
このアーキテクチャは、異なるスケールにわたる機能の効果的なハンドリングを可能にし、人間のポーズ推定のようなタスクを実行するモデルの能力を高める。
実験の結果,提案手法はパラメータが少なく,既存の最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-12-03T06:23:19Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling [70.34875558830241]
本研究では,シーンをレンダリングする動的領域の階層化モデリングを可能にする意味的セマンティックギアに基づく,時間的(4D)埋め込みの学習方法を提案する。
同時に、ほぼ無償で、当社のトラッキングアプローチは、既存のNeRFベースのメソッドでまだ達成されていない機能である、自由視点(free-view of interest)を可能にします。
論文 参考訳(メタデータ) (2024-06-06T03:37:39Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - MaxViT: Multi-Axis Vision Transformer [19.192826213493838]
多軸アテンションと呼ばれる効率的でスケーラブルなアテンションモデルを導入する。
提案するアテンションモデルと畳み込みを効果的に組み合わせることで,新しいアーキテクチャ要素を提案する。
視覚タスクの幅広い範囲におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:44Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。