論文の概要: RS-Agent: Automating Remote Sensing Tasks through Intelligent Agents
- arxiv url: http://arxiv.org/abs/2406.07089v1
- Date: Tue, 11 Jun 2024 09:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:44:39.007509
- Title: RS-Agent: Automating Remote Sensing Tasks through Intelligent Agents
- Title(参考訳): RS-Agent:インテリジェントエージェントによるリモートセンシングタスクの自動化
- Authors: Wenjia Xu, Zijian Yu, Yixu Wang, Jiuniu Wang, Mugen Peng,
- Abstract要約: RS-Agent という LLM 駆動の知的エージェントを提案する。
まず、RS-Agentは「中央制御器」として機能する大規模言語モデル(LLM)によって駆動される。
第2に、RS-Agentは多くの高性能リモートセンシング画像処理ツールを統合し、マルチツールとマルチターン会話を容易にする。
第3に,我々のRS-Agentは,堅牢な知識文書を活用することで,専門家の質問に答えることができる。
- 参考スコア(独自算出の注目度): 21.54823668297367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An increasing number of models have achieved great performance in remote sensing tasks with the recent development of Large Language Models (LLMs) and Visual Language Models (VLMs). However, these models are constrained to basic vision and language instruction-tuning tasks, facing challenges in complex remote sensing applications. Additionally, these models lack specialized expertise in professional domains. To address these limitations, we propose a LLM-driven remote sensing intelligent agent named RS-Agent. Firstly, RS-Agent is powered by a large language model (LLM) that acts as its "Central Controller," enabling it to understand and respond to various problems intelligently. Secondly, our RS-Agent integrates many high-performance remote sensing image processing tools, facilitating multi-tool and multi-turn conversations. Thirdly, our RS-Agent can answer professional questions by leveraging robust knowledge documents. We conducted experiments using several datasets, e.g., RSSDIVCS, RSVQA, and DOTAv1. The experimental results demonstrate that our RS-Agent delivers outstanding performance in many tasks, i.e., scene classification, visual question answering, and object counting tasks.
- Abstract(参考訳): 近年のLarge Language Models (LLM) と Visual Language Models (VLM) の開発により,リモートセンシングタスクにおいて多くのモデルが大きなパフォーマンスを実現している。
しかしながら、これらのモデルは、複雑なリモートセンシングアプリケーションにおいて困難に直面している、基本的なビジョンと言語命令チューニングタスクに制約されている。
さらに、これらのモデルは専門分野の専門知識を欠いている。
これらの制約に対処するため, RS-Agent という LLM 駆動の知的エージェントを提案する。
まず、RS-Agentは"Central Controller"として機能する大規模言語モデル(LLM)を使用しており、様々な問題を理解し、対応することができる。
第2に、RS-Agentは多くの高性能リモートセンシング画像処理ツールを統合し、マルチツールとマルチターン会話を容易にする。
第3に,我々のRS-Agentは,堅牢な知識文書を活用することで,専門家の質問に答えることができる。
我々は,複数のデータセット,例えば RSSDIVCS, RSVQA, DOTAv1 を用いて実験を行った。
実験の結果,我々のRS-Agentは,シーン分類,視覚的質問応答,オブジェクトカウントタスクなど,多くのタスクにおいて優れたパフォーマンスを実現していることがわかった。
関連論文リスト
- Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
SPA-Benchは3つの重要なコントリビューションを提供している。 英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。
複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [5.981597754991408]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。
本稿では,13万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文 参考訳(メタデータ) (2024-08-27T02:45:26Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering [48.7363941445826]
本稿では,オブジェクト検出とカウントにおける基礎モデルの限界を克服するために,Multi-Agent VQAという適応型マルチエージェントシステムを提案する。
ゼロショットシナリオで予備実験結果を示し、いくつかの障害事例を強調し、今後の研究の方向性を示す。
論文 参考訳(メタデータ) (2024-03-21T18:57:25Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction
Tuning with Large Language Model [12.19132018279148]
視覚言語理解に特化して設計された多モード大言語モデルであるSkyEyeGPTを紹介する。
シンプルだが効果的なデザインで、SkyEyeGPTは、余分なエンコードモジュールを必要とせずに、驚くほど異なるタスクで驚くほどうまく機能する。
RSビジョン言語タスクのための8つのデータセットの実験は、画像レベルおよび領域レベルのタスクにおいてSkyEyeGPTが優れていることを示す。
論文 参考訳(メタデータ) (2024-01-18T04:10:20Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。