論文の概要: REMSA: An LLM Agent for Foundation Model Selection in Remote Sensing
- arxiv url: http://arxiv.org/abs/2511.17442v1
- Date: Fri, 21 Nov 2025 17:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.149362
- Title: REMSA: An LLM Agent for Foundation Model Selection in Remote Sensing
- Title(参考訳): リモートセンシングにおける基礎モデル選択のためのLLMエージェントREMSA
- Authors: Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir,
- Abstract要約: ファンデーションモデル(FM)は、環境モニタリング、災害評価、土地利用マッピングといったタスクにリモートセンシング(RS)にますます使われています。
本稿では、複数のデータモダリティ、解像度、学習パラダイムにまたがる150以上のRSFMをカバーする構造化リソースであるRSFM Database(RS-FMD)を紹介する。
自然言語クエリからRSFMを自動選択するための最初のLSMベースのエージェントであるREMSAを提案する。
- 参考スコア(独自算出の注目度): 16.401094981355218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation Models (FMs) are increasingly used in remote sensing (RS) for tasks such as environmental monitoring, disaster assessment, and land-use mapping. These models include unimodal vision encoders trained on a single data modality and multimodal architectures trained on combinations of SAR, multispectral, hyperspectral, and image-text data. They support diverse RS tasks including semantic segmentation, image classification, change detection, and visual question answering. However, selecting an appropriate remote sensing foundation model (RSFM) remains difficult due to scattered documentation, heterogeneous formats, and varied deployment constraints. We introduce the RSFM Database (RS-FMD), a structured resource covering over 150 RSFMs spanning multiple data modalities, resolutions, and learning paradigms. Built on RS-FMD, we present REMSA, the first LLM-based agent for automated RSFM selection from natural language queries. REMSA interprets user requirements, resolves missing constraints, ranks candidate models using in-context learning, and provides transparent justifications. We also propose a benchmark of 75 expert-verified RS query scenarios, producing 900 configurations under an expert-centered evaluation protocol. REMSA outperforms several baselines, including naive agents, dense retrieval, and unstructured RAG-based LLMs. It operates entirely on publicly available metadata and does not access private or sensitive data.
- Abstract(参考訳): ファンデーションモデル(FM)は、環境モニタリング、災害評価、土地利用マッピングといったタスクにリモートセンシング(RS)にますます使われています。
これらのモデルには、SAR、マルチスペクトル、ハイパースペクトル、画像-テキストデータの組み合わせで訓練された単一のデータモダリティとマルチモーダルアーキテクチャに基づいて訓練されたユニモーダルビジョンエンコーダが含まれる。
セマンティックセグメンテーション、画像分類、変化検出、視覚的質問応答を含む多様なRSタスクをサポートする。
しかし、分散ドキュメント、異種フォーマット、様々な展開制約により、適切なリモートセンシング基盤モデル(RSFM)を選択することは依然として困難である。
本稿では、複数のデータモダリティ、解像度、学習パラダイムにまたがる150以上のRSFMをカバーする構造化リソースであるRSFM Database(RS-FMD)を紹介する。
RS-FMDに基づいて構築されたREMSAは、自然言語クエリからRSFMを自動選択する最初のLSMベースのエージェントである。
REMSAはユーザの要求を解釈し、不足した制約を解決し、コンテキスト内学習を用いて候補モデルをランク付けし、透過的な正当化を提供する。
また、専門家中心評価プロトコルの下で、75の専門家検証RSクエリシナリオのベンチマークを提案し、900の構成を生成する。
REMSAは、ナイーブエージェント、高密度検索、RAGベースのLLMなど、いくつかのベースラインを上回ります。
完全に公開メタデータで動作しており、プライベートデータや機密データにはアクセスできない。
関連論文リスト
- MSRS: Evaluating Multi-Source Retrieval-Augmented Generation [51.717139132190574]
多くの現実世界のアプリケーションは、複数のソースにまたがる情報を統合して要約する能力を必要としている。
本稿では、RAGシステムに対して異なるソース間で情報を統合するための評価ベンチマークを構築するためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T14:59:55Z) - Region-Level Context-Aware Multimodal Understanding [52.565528550835786]
地域レベルのコンテキスト対応マルチモーダル理解(RCMU)は、よりコンテキスト対応のマルチモーダル理解のためにオブジェクトに関連するテキストコンテキストを統合する能力である。
MLLMにRCMU機能を持たせるために、領域レベルのコンテキスト対応ビジュアルインストラクションチューニング(RCVIT)を提案する。
複数のRCMUタスクをカバーする大規模ビジュアルインストラクションチューニングデータセットであるRCMUデータセットを紹介する。
また、RCMUにおけるMLLMの性能とマルチモーダルパーソナライズされた理解タスクを評価するための総合的なベンチマークであるRC&P-Benchを提案する。
論文 参考訳(メタデータ) (2025-08-17T07:18:43Z) - RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - Multimodal Information Retrieval for Open World with Edit Distance Weak Supervision [0.0]
FemmIRは、例えば類似性ラベルなしでマルチモーダルクエリで表現された情報に関連のある結果を検索するフレームワークである。
また,MuconoLの欠失症例に対してFemmIRを経験的に評価した。
論文 参考訳(メタデータ) (2025-06-25T00:25:08Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - A Simple Aerial Detection Baseline of Multimodal Language Models [33.91030170608569]
LMMRotateという,マルチモーダル空中検出を初めて適用するための簡単なベースラインを提案する。
オープンソースの汎用性を微調整してベースラインを構築し,従来の検出器に匹敵する優れた検出性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T18:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。