論文の概要: GeoLLM-Engine: A Realistic Environment for Building Geospatial Copilots
- arxiv url: http://arxiv.org/abs/2404.15500v1
- Date: Tue, 23 Apr 2024 20:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 15:13:10.062611
- Title: GeoLLM-Engine: A Realistic Environment for Building Geospatial Copilots
- Title(参考訳): GeoLLM-Engine: 地理空間コパイロット構築のための現実的な環境
- Authors: Simranjit Singh, Michael Fore, Dimitrios Stamoulis,
- Abstract要約: GeoLLM-Engineは、リモートセンシングプラットフォーム上でアナリストが日常的に実行する複雑なタスクを備えた、ツール拡張されたエージェントのための環境である。
我々は100GPT-4-Turboノードにまたがる巨大な並列エンジンを活用し、50万以上の多様なマルチツールタスクと1100万の衛星画像にスケールします。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geospatial Copilots unlock unprecedented potential for performing Earth Observation (EO) applications through natural language instructions. However, existing agents rely on overly simplified single tasks and template-based prompts, creating a disconnect with real-world scenarios. In this work, we present GeoLLM-Engine, an environment for tool-augmented agents with intricate tasks routinely executed by analysts on remote sensing platforms. We enrich our environment with geospatial API tools, dynamic maps/UIs, and external multimodal knowledge bases to properly gauge an agent's proficiency in interpreting realistic high-level natural language commands and its functional correctness in task completions. By alleviating overheads typically associated with human-in-the-loop benchmark curation, we harness our massively parallel engine across 100 GPT-4-Turbo nodes, scaling to over half a million diverse multi-tool tasks and across 1.1 million satellite images. By moving beyond traditional single-task image-caption paradigms, we investigate state-of-the-art agents and prompting techniques against long-horizon prompts.
- Abstract(参考訳): Geospatial Copilotsは、自然言語による地球観測(EO)の応用に先例のない可能性を解き放つ。
しかし、既存のエージェントは過剰に単純化された単一タスクとテンプレートベースのプロンプトに依存しており、現実世界のシナリオと切り離されている。
本稿では,遠隔センシングプラットフォーム上で,アナリストが日常的に行う複雑なタスクを伴うツール拡張エージェントのための環境であるGeoLLM-Engineを紹介する。
我々は地理空間APIツール、動的マップ/UI、および外部マルチモーダル知識ベースで環境を充実させ、現実的な高レベル自然言語コマンドの解釈におけるエージェントの習熟度とタスク完了時の機能的正しさを適切に評価する。
ヒューマン・イン・ザ・ループ・ベンチマーク・キュレーションに関連するオーバーヘッドを緩和することで、100のGPT-4-Turboノードにまたがる巨大な並列エンジンを活用し、50万以上の多様なマルチツールタスクと1100万の衛星画像にスケールアップします。
従来の単一タスクのイメージキャプチャパラダイムを超えて、最先端のエージェントを調査し、ロングホライズンプロンプトに対するテクニックを推し進める。
関連論文リスト
- GIS Copilot: Towards an Autonomous GIS Agent for Spatial Analysis [0.0]
ジェネレーティブAIは、空間分析に有望な機能を提供する。
これらの可能性にもかかわらず、ジェネレーティブAIと確立されたGISプラットフォームの統合はいまだ検討されていない。
GIS Copilot" はGISユーザが自然言語コマンドを使ってQGISと対話して空間分析を行うことを可能にする。
論文 参考訳(メタデータ) (2024-11-05T15:53:59Z) - Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - GeoGPT: Understanding and Processing Geospatial Tasks through An
Autonomous GPT [6.618846295332767]
GISの意思決定者は、空間的タスクを解決するために、一連の空間的アルゴリズムと演算を組み合わせる必要がある。
我々は,地理空間データ収集,処理,解析を自律的に行うことのできるGeoGPTと呼ばれる新しいフレームワークを開発した。
論文 参考訳(メタデータ) (2023-07-16T03:03:59Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。