論文の概要: Co-Training Vision Language Models for Remote Sensing Multi-task Learning
- arxiv url: http://arxiv.org/abs/2511.21272v1
- Date: Wed, 26 Nov 2025 10:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.068576
- Title: Co-Training Vision Language Models for Remote Sensing Multi-task Learning
- Title(参考訳): リモートセンシングマルチタスク学習のための共同学習型視覚言語モデル
- Authors: Qingyun Li, Shuran Ma, Junwei Luo, Yi Yu, Yue Zhou, Fengxiang Wang, Xudong Lu, Xiaoxing Wang, Xin He, Yushi Chen, Xue Yang, Junchi Yan,
- Abstract要約: 視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
- 参考スコア(独自算出の注目度): 68.15604397741753
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With Transformers achieving outstanding performance on individual remote sensing (RS) tasks, we are now approaching the realization of a unified model that excels across multiple tasks through multi-task learning (MTL). Compared to single-task approaches, MTL methods offer improved generalization, enhanced scalability, and greater practical applicability. Recently, vision language models (VLMs) have achieved promising results in RS image understanding, grounding, and ultra-high-resolution (UHR) image reasoning, respectively. Moreover, the unified text-based interface demonstrates significant potential for MTL. Hence, in this work, we present RSCoVLM, a simple yet flexible VLM baseline for RS MTL. Firstly, we create the data curation engine, including data acquisition, offline processing and integrating, as well as online loading and weighting. This data engine effectively addresses complex RS data enviroment and generates flexible vision-language conversations. Furthermore, we propose a unified dynamic-resolution strategy to address the diverse image scales inherent in RS imagery. For UHR images, we introduce the Zoom-in Chain mechanism together with its corresponding dataset, LRS-VQA-Zoom. The strategies are flexible and effectively mitigate the computational burdens. Additionally, we significantly enhance the model's object detection capability and propose a novel evaluation protocol that ensures fair comparison between VLMs and conventional detection models. Extensive experiments demonstrate that RSCoVLM achieves state-of-the-art performance across diverse tasks, outperforming existing RS VLMs and even rivaling specialized expert models. All the training and evaluating tools, model weights, and datasets have been fully open-sourced to support reproducibility. We expect that this baseline will promote further progress toward general-purpose RS models.
- Abstract(参考訳): トランスフォーマーは個別のリモートセンシング(RS)タスクにおいて優れた性能を発揮しており、マルチタスク学習(MTL)を通じて複数のタスクを横断する統一モデルの実現に近づいている。
シングルタスクの手法と比較して、MTL法は一般化の改善、拡張性の向上、実用的な適用性の向上を提供する。
近年、視覚言語モデル(VLM)は、それぞれRS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
さらに、統一されたテキストベースインタフェースは、MTLにとって大きな可能性を示す。
そこで本研究では,RS MTL のための単純かつ柔軟な VLM ベースラインである RSCoVLM を提案する。
まず、データ取得、オフライン処理と統合、オンライン読み込みと重み付けを含むデータキュレーションエンジンを作成します。
このデータエンジンは複雑なRSデータ環境を効果的に処理し、柔軟な視覚言語会話を生成する。
さらに、RS画像に固有の多様な画像スケールに対処する統合された動的解像度戦略を提案する。
UHR画像に対しては、その対応するデータセットであるLSS-VQA-ZoomとともにZoom-in Chain機構を導入する。
戦略は柔軟で、計算負担を効果的に軽減します。
さらに,モデルのオブジェクト検出能力を大幅に向上させ,VLMと従来の検出モデルとの公正な比較を保証する新しい評価プロトコルを提案する。
大規模な実験により、RSCoVLMは様々なタスクにまたがって最先端のパフォーマンスを達成し、既存のRS VLMよりも優れており、また、競合する専門家モデルさえも達成している。
トレーニングと評価ツール、モデルウェイト、データセットはすべて、再現性をサポートするために完全にオープンソース化されている。
このベースラインは汎用RSモデルへのさらなる進歩を期待する。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。
目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。
MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文 参考訳(メタデータ) (2024-12-16T21:14:11Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - RS-MoE: A Vision-Language Model with Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering [23.699493284403967]
本稿では,リモートセンシングに特化してカスタマイズされた,最初のMixture of ExpertベースのVLMであるRS-MoEを提案する。
従来のMoEモデルとは異なり、RS-MoEのコアとなるMoEブロックは、新しいインストラクションルータと複数の軽量言語モデル(LLM)をエキスパートモデルとして組み込んだものである。
本モデルでは, 精度, 文脈に関連のあるキャプションを生成する際に, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-03T15:05:49Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。