論文の概要: FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2512.24022v1
- Date: Tue, 30 Dec 2025 06:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.304627
- Title: FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
- Title(参考訳): FUSE-RSVLM:リモートセンシングのための特徴核融合言語モデル
- Authors: Yunkai Dang, Donghao Wang, Jiacheng Yang, Yifan Jiang, Meiyi Zhu, Yuekun Yang, Cong Wang, Qi Fan, Wenbin Li, Yang Gao,
- Abstract要約: MF-RSVLMは多機能核融合リモートセンシングビジョン-言語モデルである。
マルチスケールの視覚表現を学習し、グローバルなコンテキストと局所的な詳細を組み合わせる。
リモートセンシング分類、画像キャプション、VQAタスクにまたがる最先端または高い競争性能を達成する。
- 参考スコア(独自算出の注目度): 21.38912956638889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) exhibit strong performance across various tasks. However, these VLMs encounter significant challenges when applied to the remote sensing domain due to the inherent differences between remote sensing images and natural images. Existing remote sensing VLMs often fail to extract fine-grained visual features and suffer from visual forgetting during deep language processing. To address this, we introduce MF-RSVLM, a Multi-Feature Fusion Remote Sensing Vision--Language Model that effectively extracts and fuses visual features for RS understanding. MF-RSVLM learns multi-scale visual representations and combines global context with local details, improving the capture of small and complex structures in RS scenes. A recurrent visual feature injection scheme ensures the language model remains grounded in visual evidence and reduces visual forgetting during generation. Extensive experiments on diverse RS benchmarks show that MF-RSVLM achieves state-of-the-art or highly competitive performance across remote sensing classification, image captioning, and VQA tasks. Our code is publicly available at https://github.com/Yunkaidang/RSVLM.
- Abstract(参考訳): 大規模視覚言語モデル (VLM) は様々なタスクにおいて高い性能を示す。
しかしながら、これらのVLMは、リモートセンシング画像と自然画像の固有の相違により、リモートセンシング領域に適用する場合、重大な課題に直面する。
既存のリモートセンシングVLMは、細粒度の視覚的特徴の抽出に失敗し、深い言語処理中に視覚的忘れを被ることが多い。
これを解決するために,多機能核融合リモートセンシングビジョン-言語モデルであるMF-RSVLMを導入し,RS理解のための視覚的特徴を効果的に抽出・融合する。
MF-RSVLMはマルチスケールの視覚表現を学習し、グローバルコンテキストと局所的な詳細を組み合わせ、RSシーンにおける小さな複雑な構造のキャプチャを改善する。
繰り返し視覚的特徴注入方式は、言語モデルが視覚的エビデンスに根ざしていることを保証し、生成時の視覚的忘れを減らす。
MF-RSVLMはリモートセンシング分類、画像キャプション、VQAタスクにまたがって、最先端または高い競争性能を達成している。
私たちのコードはhttps://github.com/Yunkaidang/RSVLM.comで公開されています。
関連論文リスト
- Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.748210940033484]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は大きな成功を収めた。
リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは理解の難しさに直面している。
リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
論文 参考訳(メタデータ) (2025-03-11T08:02:54Z) - UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models [23.044366104080822]
textbfUniRSは視覚言語モデルとして最初のbftextremote bftextsensingタスクである。
UniRSはシングルイメージ、デュアルタイムイメージペア、ビデオを入力としてサポートし、総合的なリモートセンシング時間分析を可能にする。
実験の結果、UniRSは様々なタスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2024-12-30T06:34:18Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。