論文の概要: FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2512.24022v1
- Date: Tue, 30 Dec 2025 06:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.304627
- Title: FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
- Title(参考訳): FUSE-RSVLM:リモートセンシングのための特徴核融合言語モデル
- Authors: Yunkai Dang, Donghao Wang, Jiacheng Yang, Yifan Jiang, Meiyi Zhu, Yuekun Yang, Cong Wang, Qi Fan, Wenbin Li, Yang Gao,
- Abstract要約: MF-RSVLMは多機能核融合リモートセンシングビジョン-言語モデルである。
マルチスケールの視覚表現を学習し、グローバルなコンテキストと局所的な詳細を組み合わせる。
リモートセンシング分類、画像キャプション、VQAタスクにまたがる最先端または高い競争性能を達成する。
- 参考スコア(独自算出の注目度): 21.38912956638889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) exhibit strong performance across various tasks. However, these VLMs encounter significant challenges when applied to the remote sensing domain due to the inherent differences between remote sensing images and natural images. Existing remote sensing VLMs often fail to extract fine-grained visual features and suffer from visual forgetting during deep language processing. To address this, we introduce MF-RSVLM, a Multi-Feature Fusion Remote Sensing Vision--Language Model that effectively extracts and fuses visual features for RS understanding. MF-RSVLM learns multi-scale visual representations and combines global context with local details, improving the capture of small and complex structures in RS scenes. A recurrent visual feature injection scheme ensures the language model remains grounded in visual evidence and reduces visual forgetting during generation. Extensive experiments on diverse RS benchmarks show that MF-RSVLM achieves state-of-the-art or highly competitive performance across remote sensing classification, image captioning, and VQA tasks. Our code is publicly available at https://github.com/Yunkaidang/RSVLM.
- Abstract(参考訳): 大規模視覚言語モデル (VLM) は様々なタスクにおいて高い性能を示す。
しかしながら、これらのVLMは、リモートセンシング画像と自然画像の固有の相違により、リモートセンシング領域に適用する場合、重大な課題に直面する。
既存のリモートセンシングVLMは、細粒度の視覚的特徴の抽出に失敗し、深い言語処理中に視覚的忘れを被ることが多い。
これを解決するために,多機能核融合リモートセンシングビジョン-言語モデルであるMF-RSVLMを導入し,RS理解のための視覚的特徴を効果的に抽出・融合する。
MF-RSVLMはマルチスケールの視覚表現を学習し、グローバルコンテキストと局所的な詳細を組み合わせ、RSシーンにおける小さな複雑な構造のキャプチャを改善する。
繰り返し視覚的特徴注入方式は、言語モデルが視覚的エビデンスに根ざしていることを保証し、生成時の視覚的忘れを減らす。
MF-RSVLMはリモートセンシング分類、画像キャプション、VQAタスクにまたがって、最先端または高い競争性能を達成している。
私たちのコードはhttps://github.com/Yunkaidang/RSVLM.comで公開されています。
関連論文リスト
- Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - On the Reliability of Vision-Language Models Under Adversarial Frequency-Domain Perturbations [53.611451075703314]
VLM(Vision-Language Models)は、視覚コンテンツ推論のための知覚モジュールとして使われることが多い。
これらの特徴変換が,画像の自動キャプションタスクの信頼度/ディープフェイク検出にどのような影響を及ぼすかを示す。
論文 参考訳(メタデータ) (2025-07-30T05:41:29Z) - A Vision Centric Remote Sensing Benchmark [21.48675282619887]
リモートセンシングタスクにおけるCLIPに基づくMLLMの限界について検討した。
リモートセンシングマルチモーダル視覚パターン(RSMMVP)ベンチマークを導入する。
CLIP-blindペアを識別することで、RSタスクのMLLMを評価するように設計されている。
我々は最先端MLLMの性能を解析し、RS特化表現学習における重要な制限を明らかにした。
論文 参考訳(メタデータ) (2025-03-20T03:03:46Z) - Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.748210940033484]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は大きな成功を収めた。
リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは理解の難しさに直面している。
リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
論文 参考訳(メタデータ) (2025-03-11T08:02:54Z) - UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models [23.044366104080822]
textbfUniRSは視覚言語モデルとして最初のbftextremote bftextsensingタスクである。
UniRSはシングルイメージ、デュアルタイムイメージペア、ビデオを入力としてサポートし、総合的なリモートセンシング時間分析を可能にする。
実験の結果、UniRSは様々なタスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2024-12-30T06:34:18Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension [6.29665399879184]
本稿では、リモートセンシング画像のための高度な視覚言語基盤モデルであるAquilaを紹介する。
Aquilaはよりリッチな視覚的特徴表現とより正確な視覚的特徴アライメントを可能にする。
定量的実験と定性解析により,Aquilaの有効性を検証した。
論文 参考訳(メタデータ) (2024-11-09T05:31:56Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。