論文の概要: CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space
- arxiv url: http://arxiv.org/abs/2502.12532v2
- Date: Thu, 20 Feb 2025 06:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:44.319043
- Title: CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space
- Title(参考訳): CityEQA: 都市空間における身体的質問応答ベンチマークに基づく階層的LLMエージェント
- Authors: Yong Zhao, Kai Xu, Zhengqiu Zhu, Yue Hu, Zhiheng Zheng, Yingfeng Chen, Yatai Ji, Chen Gao, Yong Li, Jincai Huang,
- Abstract要約: EQA(Embodied Question Answering)は主に屋内環境に焦点を当てている。
本研究では,ダイナミックな都市空間における活発な探索を通じてオープンな語彙に答える新しい課題であるCityEQAを紹介する。
我々は,1,412の人的注釈付きタスクを含む最初のベンチマークデータセットであるCityEQA-ECを提示する。
また,CityEQA に適した新規エージェントである Planner-Manager-Actor (PMA) を提案する。
- 参考スコア(独自算出の注目度): 35.223263448229716
- License:
- Abstract: Embodied Question Answering (EQA) has primarily focused on indoor environments, leaving the complexities of urban settings - spanning environment, action, and perception - largely unexplored. To bridge this gap, we introduce CityEQA, a new task where an embodied agent answers open-vocabulary questions through active exploration in dynamic city spaces. To support this task, we present CityEQA-EC, the first benchmark dataset featuring 1,412 human-annotated tasks across six categories, grounded in a realistic 3D urban simulator. Moreover, we propose Planner-Manager-Actor (PMA), a novel agent tailored for CityEQA. PMA enables long-horizon planning and hierarchical task execution: the Planner breaks down the question answering into sub-tasks, the Manager maintains an object-centric cognitive map for spatial reasoning during the process control, and the specialized Actors handle navigation, exploration, and collection sub-tasks. Experiments demonstrate that PMA achieves 60.7% of human-level answering accuracy, significantly outperforming frontier-based baselines. While promising, the performance gap compared to humans highlights the need for enhanced visual reasoning in CityEQA. This work paves the way for future advancements in urban spatial intelligence. Dataset and code are available at https://github.com/BiluYong/CityEQA.git.
- Abstract(参考訳): EQA(Embodied Question Answering)は、主に屋内環境に焦点を当てており、都市環境、行動、知覚の複雑さは、ほとんど解明されていない。
このギャップを埋めるために,我々は,動的都市空間における活発な探索を通じてオープン語彙に答える新しい課題であるCityEQAを紹介した。
このタスクを支援するために、我々はCityEQA-EC(CityEQA-EC)という、6つのカテゴリにまたがる1,412の人間アノテーションタスクを特徴とする最初のベンチマークデータセットを紹介した。
また,CityEQA に適した新規エージェントである Planner-Manager-Actor (PMA) を提案する。
プランナーはサブタスクに答える質問を分解し、マネージャはプロセス制御中に空間的推論のためのオブジェクト中心の認知マップを保持し、特別なアクターはナビゲーション、探索、コレクションのサブタスクを処理する。
実験により、PMAはヒトレベルの回答精度の60.7%を達成し、フロンティアベースのベースラインを著しく上回っていることが示された。
有望ではあるが、人間に比べてパフォーマンスのギャップは、CityEQAにおける視覚的推論の強化の必要性を強調している。
この研究は、都市空間知能の今後の進歩の道を開くものである。
データセットとコードはhttps://github.com/BiluYong/CityEQA.gitで入手できる。
関連論文リスト
- Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment [69.07445098168344]
我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
論文 参考訳(メタデータ) (2024-11-26T09:03:16Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - 3D Question Answering for City Scene Understanding [12.433903847890322]
3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。
都市レベルのシーン理解のための3D MQAデータセットCity-3DQAを提案する。
新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。
論文 参考訳(メタデータ) (2024-07-24T16:22:27Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote
Sensing Visual Question Answering [11.37120215795946]
本研究では,多モードマルチタスクVQAデータセット(EarthVQA)を開発した。
EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。
本稿では,オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
論文 参考訳(メタデータ) (2023-12-19T15:11:32Z) - SPRING: Situated Conversation Agent Pretrained with Multimodal Questions
from Incremental Layout Graph [16.275155481031348]
Incremental Layout Graph (SPRing) を用いた多モーダル質問を学習した特定対話エージェントを提案する。
プレトレーニングで使用するQAペアはすべて、新規なインクリメンタルレイアウトグラフ(ILG)から生成される。
実験により,SPRINGの有効性が検証され,SIMMC 1.0とSIMMC 2.0の両方のデータセットに対する最先端のアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2023-01-05T08:03:47Z) - Automated Urban Planning aware Spatial Hierarchies and Human
Instructions [33.06221365923015]
本稿では,GAN(Generative Adversarial Network)に基づく都市プランナを提案する。
GANは人間の指示や周囲の文脈からの情報に基づいて都市機能ゾーンを構築する。
作業の有効性を検証するため、広範な実験を行います。
論文 参考訳(メタデータ) (2022-09-26T20:37:02Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。