論文の概要: Multimodal Interpretation of Remote Sensing Images: Dynamic Resolution Input Strategy and Multi-scale Vision-Language Alignment Mechanism
- arxiv url: http://arxiv.org/abs/2512.23243v1
- Date: Mon, 29 Dec 2025 06:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.424953
- Title: Multimodal Interpretation of Remote Sensing Images: Dynamic Resolution Input Strategy and Multi-scale Vision-Language Alignment Mechanism
- Title(参考訳): リモートセンシング画像のマルチモーダル解釈:ダイナミックレゾリューション入力戦略とマルチスケールビジョンランゲージアライメント機構
- Authors: Siyu Zhang, Ying Chen, Lianlei Shan, Runhe Qiu,
- Abstract要約: 本研究では2つの重要な革新と統合された視覚言語モデル(VLM)フレームワークを提案する。
DRISは、画像の内容の複雑さに応じて、計算資源を適応的に割り当てる粗大なアプローチを採用している。
MS-VLAMは、オブジェクト、ローカルリージョン、グローバルレベルをカバーする3層アライメント機構を構築する。
- 参考スコア(独自算出の注目度): 10.17375002962432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion of remote sensing images serves as a core technology for overcoming the limitations of single-source data and improving the accuracy of surface information extraction, which exhibits significant application value in fields such as environmental monitoring and urban planning. To address the deficiencies of existing methods, including the failure of fixed resolutions to balance efficiency and detail, as well as the lack of semantic hierarchy in single-scale alignment, this study proposes a Vision-language Model (VLM) framework integrated with two key innovations: the Dynamic Resolution Input Strategy (DRIS) and the Multi-scale Vision-language Alignment Mechanism (MS-VLAM).Specifically, the DRIS adopts a coarse-to-fine approach to adaptively allocate computational resources according to the complexity of image content, thereby preserving key fine-grained features while reducing redundant computational overhead. The MS-VLAM constructs a three-tier alignment mechanism covering object, local-region and global levels, which systematically captures cross-modal semantic consistency and alleviates issues of semantic misalignment and granularity imbalance.Experimental results on the RS-GPT4V dataset demonstrate that the proposed framework significantly improves the accuracy of semantic understanding and computational efficiency in tasks including image captioning and cross-modal retrieval. Compared with conventional methods, it achieves superior performance in evaluation metrics such as BLEU-4 and CIDEr for image captioning, as well as R@10 for cross-modal retrieval. This technical framework provides a novel approach for constructing efficient and robust multimodal remote sensing systems, laying a theoretical foundation and offering technical guidance for the engineering application of intelligent remote sensing interpretation.
- Abstract(参考訳): リモートセンシング画像のマルチモーダル融合は、単一ソースデータの限界を克服し、表面情報抽出の精度を向上させるためのコア技術として機能し、環境モニタリングや都市計画といった分野における重要な応用価値を示す。
そこで本研究では,DRIS(Dynamic Resolution Input Strategy)とMS-VLAM(Multi-scale Vision-Language Alignment Mechanism)という2つの重要な革新と統合されたビジョン言語モデル(VLM)フレームワークを提案する。
具体的には、DRISは、画像内容の複雑さに応じて計算資源を適応的に割り当てる粗大なアプローチを採用し、これにより、冗長な計算オーバーヘッドを低減しつつ、重要なきめ細かい特徴を保存する。
MS-VLAMは、オブジェクト、局所領域、グローバルレベルをカバーする3階層のアライメント機構を構築し、クロスモーダルなセマンティック一貫性を体系的に把握し、セマンティックなミスアライメントと粒度不均衡の問題を軽減する。
従来の手法と比較して,画像キャプションではBLEU-4,CIDEr,クロスモーダル検索ではR@10,評価指標ではBLEU-4,CIDErが優れている。
この技術フレームワークは、効率的で堅牢なマルチモーダルリモートセンシングシステムを構築するための新しいアプローチを提供し、理論的基盤を構築し、インテリジェントリモートセンシング解釈の工学的応用のための技術ガイダンスを提供する。
関連論文リスト
- Vision-Enhanced Large Language Models for High-Resolution Image Synthesis and Multimodal Data Interpretation [0.0]
本研究では,視覚拡張大言語モデル(LLM)と高度なトランスフォーマベースアーキテクチャを統合するための変換フレームワークを提案する。
提案モデルでは, ノイズとデータを線形経路に接続し, 効率的かつ高品質な生成を可能にする整流機構を組み込んだ。
このフレームワークは、合成画像とコヒーレントなマルチモーダル表現において、非平行な忠実性を達成する。
論文 参考訳(メタデータ) (2025-12-14T08:28:50Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - Task-driven real-world super-resolution of document scans [41.61731067095584]
シングルイメージ超解像(英: Single-image Super- resolution)とは、単一の低分解能観測から高分解能画像の再構成を指す。
光文字認識タスクに最適化された超高解像度ネットワークをトレーニングするためのタスク駆動型マルチタスク学習フレームワークを提案する。
SRResNetアーキテクチャに対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-08T00:16:29Z) - SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model [38.06930079816157]
高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。
センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。
RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-29T02:38:34Z) - C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales [6.700548615812325]
我々は、注目に基づく画像超解像モデルの最適化のための新しいフレームワーク、textbfC2D-ISRを提案する。
このアプローチは、2段階のトレーニング手法と階層的なエンコーディング機構に基づいている。
さらに,既存のアテンションベースネットワーク構造を用いて階層符号化機構を一般化する。
論文 参考訳(メタデータ) (2025-03-17T21:52:18Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。