Fugu-MT 論文翻訳(概要): RS-Agent: Automating Remote Sensing Tasks through Intelligent Agents

論文の概要: RS-Agent: Automating Remote Sensing Tasks through Intelligent Agents

arxiv url: http://arxiv.org/abs/2406.07089v1
Date: Tue, 11 Jun 2024 09:30:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 16:44:39.007509
Title: RS-Agent: Automating Remote Sensing Tasks through Intelligent Agents
Title（参考訳）: RS-Agent:インテリジェントエージェントによるリモートセンシングタスクの自動化
Authors: Wenjia Xu, Zijian Yu, Yixu Wang, Jiuniu Wang, Mugen Peng,
Abstract要約: RS-Agent という LLM 駆動の知的エージェントを提案する。まず、RS-Agentは「中央制御器」として機能する大規模言語モデル(LLM)によって駆動される。第2に、RS-Agentは多くの高性能リモートセンシング画像処理ツールを統合し、マルチツールとマルチターン会話を容易にする。第3に,我々のRS-Agentは,堅牢な知識文書を活用することで,専門家の質問に答えることができる。
参考スコア（独自算出の注目度）: 21.54823668297367
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An increasing number of models have achieved great performance in remote sensing tasks with the recent development of Large Language Models (LLMs) and Visual Language Models (VLMs). However, these models are constrained to basic vision and language instruction-tuning tasks, facing challenges in complex remote sensing applications. Additionally, these models lack specialized expertise in professional domains. To address these limitations, we propose a LLM-driven remote sensing intelligent agent named RS-Agent. Firstly, RS-Agent is powered by a large language model (LLM) that acts as its "Central Controller," enabling it to understand and respond to various problems intelligently. Secondly, our RS-Agent integrates many high-performance remote sensing image processing tools, facilitating multi-tool and multi-turn conversations. Thirdly, our RS-Agent can answer professional questions by leveraging robust knowledge documents. We conducted experiments using several datasets, e.g., RSSDIVCS, RSVQA, and DOTAv1. The experimental results demonstrate that our RS-Agent delivers outstanding performance in many tasks, i.e., scene classification, visual question answering, and object counting tasks.
Abstract（参考訳）: 近年のLarge Language Models (LLM) と Visual Language Models (VLM) の開発により,リモートセンシングタスクにおいて多くのモデルが大きなパフォーマンスを実現している。しかしながら、これらのモデルは、複雑なリモートセンシングアプリケーションにおいて困難に直面している、基本的なビジョンと言語命令チューニングタスクに制約されている。さらに、これらのモデルは専門分野の専門知識を欠いている。これらの制約に対処するため, RS-Agent という LLM 駆動の知的エージェントを提案する。まず、RS-Agentは"Central Controller"として機能する大規模言語モデル(LLM)を使用しており、様々な問題を理解し、対応することができる。第2に、RS-Agentは多くの高性能リモートセンシング画像処理ツールを統合し、マルチツールとマルチターン会話を容易にする。第3に,我々のRS-Agentは,堅牢な知識文書を活用することで,専門家の質問に答えることができる。我々は,複数のデータセット,例えば RSSDIVCS, RSVQA, DOTAv1 を用いて実験を行った。実験の結果,我々のRS-Agentは,シーン分類,視覚的質問応答,オブジェクトカウントタスクなど,多くのタスクにおいて優れたパフォーマンスを実現していることがわかった。

関連論文リスト

State and Memory is All You Need for Robust and Reliable AI Agents [29.259008600842517]
大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
論文参考訳（メタデータ） (2025-06-30T02:02:35Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。 ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文参考訳（メタデータ） (2025-05-29T17:59:38Z)
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.748210940033484]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は大きな成功を収めた。リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは理解の難しさに直面している。リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
論文参考訳（メタデータ） (2025-03-11T08:02:54Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。 RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文参考訳（メタデータ） (2024-12-07T15:11:21Z)
MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-11-28T19:36:11Z)
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。 SPA-Benchは3つの重要なコントリビューションを提供している。英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文参考訳（メタデータ） (2024-10-19T17:28:48Z)
Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文参考訳（メタデータ） (2024-10-10T17:43:51Z)
RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [3.178739428363249]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文参考訳（メタデータ） (2024-08-27T02:45:26Z)
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。 VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文参考訳（メタデータ） (2024-08-12T17:44:17Z)
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文参考訳（メタデータ） (2024-06-28T08:28:38Z)
Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering [48.7363941445826]
本稿では,オブジェクト検出とカウントにおける基礎モデルの限界を克服するために,Multi-Agent VQAという適応型マルチエージェントシステムを提案する。ゼロショットシナリオで予備実験結果を示し、いくつかの障害事例を強調し、今後の研究の方向性を示す。
論文参考訳（メタデータ） (2024-03-21T18:57:25Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)
Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文参考訳（メタデータ） (2024-01-21T23:36:14Z)
SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model [12.19132018279148]
視覚言語理解に特化して設計された多モード大言語モデルであるSkyEyeGPTを紹介する。シンプルだが効果的なデザインで、SkyEyeGPTは、余分なエンコードモジュールを必要とせずに、驚くほど異なるタスクで驚くほどうまく機能する。 RSビジョン言語タスクのための8つのデータセットの実験は、画像レベルおよび領域レベルのタスクにおいてSkyEyeGPTが優れていることを示す。
論文参考訳（メタデータ） (2024-01-18T04:10:20Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。 GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文参考訳（メタデータ） (2023-11-24T18:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。