論文の概要: Evaluating Tool-Augmented Agents in Remote Sensing Platforms
- arxiv url: http://arxiv.org/abs/2405.00709v1
- Date: Tue, 23 Apr 2024 20:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 17:44:45.372389
- Title: Evaluating Tool-Augmented Agents in Remote Sensing Platforms
- Title(参考訳): リモートセンシングプラットフォームにおけるツール強化エージェントの評価
- Authors: Simranjit Singh, Michael Fore, Dimitrios Stamoulis,
- Abstract要約: 既存のベンチマークでは、事前に定義された画像とテキストのデータペアに対して質問応答の入力テンプレートを仮定する。
実際のUIプラットフォーム上で,言語,視覚,クリックベースのアクションの長いシーケンスをキャプチャするベンチマークであるGeoLLM-QAを提案する。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented Large Language Models (LLMs) have shown impressive capabilities in remote sensing (RS) applications. However, existing benchmarks assume question-answering input templates over predefined image-text data pairs. These standalone instructions neglect the intricacies of realistic user-grounded tasks. Consider a geospatial analyst: they zoom in a map area, they draw a region over which to collect satellite imagery, and they succinctly ask "Detect all objects here". Where is `here`, if it is not explicitly hardcoded in the image-text template, but instead is implied by the system state, e.g., the live map positioning? To bridge this gap, we present GeoLLM-QA, a benchmark designed to capture long sequences of verbal, visual, and click-based actions on a real UI platform. Through in-depth evaluation of state-of-the-art LLMs over a diverse set of 1,000 tasks, we offer insights towards stronger agents for RS applications.
- Abstract(参考訳): ツール強化された大規模言語モデル(LLM)は、リモートセンシング(RS)アプリケーションにおいて印象的な機能を示している。
しかし、既存のベンチマークでは、事前に定義された画像-テキストデータペアに対して質問応答型入力テンプレートを仮定している。
これらのスタンドアロン命令は、現実的なユーザ基底タスクの複雑さを無視する。
地理空間アナリストは、地図エリアを拡大し、衛星画像の収集を行う領域を描画し、簡潔に「ここで全ての物体を抽出する」と問う。
もしイメージテキストテンプレートで明示的にハードコードされていない場合、代わりにシステム状態、例えばライブマップの配置によって暗示されますか?
このギャップを埋めるために、実際のUIプラットフォーム上での言語、視覚、クリックベースのアクションの長いシーケンスをキャプチャするために設計されたベンチマークであるGeoLLM-QAを紹介する。
1000のタスクからなる多種多様なタスクに対して、最先端のLCMを詳細に評価することにより、RSアプリケーションのためのより強力なエージェントに対する洞察を提供する。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - GeoGround: A Unified Large Vision-Language Model. for Remote Sensing Visual Grounding [31.01378033872341]
GeoGroundは、HBB、OBB、マスクRSビジュアルグラウンドタスクのサポートを統合する新しいフレームワークである。
モデルトレーニングを支援するために,161kの画像テキストペアを含む大規模RS視覚指示追従データセットrefGeoを提案する。
論文 参考訳(メタデータ) (2024-11-16T05:12:11Z) - DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM [81.75988648572347]
DetToolChainはマルチモーダル大言語モデル(MLLM)のゼロショットオブジェクト検出能力を解き放つ新しいパラダイムである。
提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。
DetToolChainを用いたGPT-4Vは,オープン語彙検出のための新しいクラスセットにおいて,最先端のオブジェクト検出器を+21.5%AP50で改善することを示す。
論文 参考訳(メタデータ) (2024-03-19T06:54:33Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - Seeing Beyond the Patch: Scale-Adaptive Semantic Segmentation of
High-resolution Remote Sensing Imagery based on Reinforcement Learning [8.124633573706763]
画像パッチ外の適切なスケールコンテキスト情報を適応的にキャプチャする動的スケール認識フレームワークGeoAgentを提案する。
現在の画像パッチの位置を識別する能力を高めるために,特徴指標モジュールを提案する。
2つの公開データセットと新たに構築したデータセット WUSU を用いて実験した結果,GeoAgent が従来のセグメンテーション手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-09-27T02:48:04Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Learning to Evaluate Performance of Multi-modal Semantic Localization [9.584659231769416]
セマンティックローカライゼーション(Semantic Localization、SeLo)とは、テキストなどの意味情報を用いて、大規模リモートセンシング(RS)画像の最も関連性の高い位置を求めるタスクである。
本稿では、この分野を徹底的に研究し、SeLoタスクを進めるためのメトリクスとテストデータの観点から完全なベンチマークを提供する。
論文 参考訳(メタデータ) (2022-09-14T09:39:03Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。