論文の概要: Towards Intelligent Urban Park Development Monitoring: LLM Agents for Multi-Modal Information Fusion and Analysis
- arxiv url: http://arxiv.org/abs/2601.20206v1
- Date: Wed, 28 Jan 2026 03:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.746911
- Title: Towards Intelligent Urban Park Development Monitoring: LLM Agents for Multi-Modal Information Fusion and Analysis
- Title(参考訳): 知的都市公園開発モニタリングに向けて:マルチモーダル情報融合分析のためのLCMエージェント
- Authors: Zixuan Xiao, Chunguang Hu, Jun Ma,
- Abstract要約: 本研究では,都市公園開発モニタリングにおける課題に対応するため,マルチモーダルLLMエージェントフレームワークを提案する。
汎用水平および垂直データアライメント機構は、マルチモーダルデータの一貫性と効果的な追跡を保証するように設計されている。
バニラ GPT-4o や他のエージェントと比較して,本手法は堅牢なマルチモーダル情報融合と解析を可能にする。
- 参考スコア(独自算出の注目度): 3.1901529218739246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important part of urbanization, the development monitoring of newly constructed parks is of great significance for evaluating the effect of urban planning and optimizing resource allocation. However, traditional change detection methods based on remote sensing imagery have obvious limitations in high-level and intelligent analysis, and thus are difficult to meet the requirements of current urban planning and management. In face of the growing demand for complex multi-modal data analysis in urban park development monitoring, these methods often fail to provide flexible analysis capabilities for diverse application scenarios. This study proposes a multi-modal LLM agent framework, which aims to make full use of the semantic understanding and reasoning capabilities of LLM to meet the challenges in urban park development monitoring. In this framework, a general horizontal and vertical data alignment mechanism is designed to ensure the consistency and effective tracking of multi-modal data. At the same time, a specific toolkit is constructed to alleviate the hallucination issues of LLM due to the lack of domain-specific knowledge. Compared to vanilla GPT-4o and other agents, our approach enables robust multi-modal information fusion and analysis, offering reliable and scalable solutions tailored to the diverse and evolving demands of urban park development monitoring.
- Abstract(参考訳): 都市化の重要部分として、新築公園の開発監視は、都市計画の効果を評価し、資源配分を最適化する上で非常に重要である。
しかし、リモートセンシング画像に基づく従来の変化検出手法は、高レベルかつインテリジェントな分析に明らかな限界があるため、現在の都市計画・管理の要件を満たすことは困難である。
都市公園開発モニタリングにおける複雑なマルチモーダルデータ分析の需要が高まっている中で、これらの手法は多様なアプリケーションシナリオに対して柔軟な分析能力を提供していないことが多い。
本研究では, 都市公園開発モニタリングにおける課題に対応するために, LLMの意味的理解と推論能力をフル活用することを目的としたマルチモーダルLLMエージェントフレームワークを提案する。
このフレームワークでは、多モードデータの一貫性と効果的な追跡を確保するために、一般的な水平および垂直データアライメント機構が設計されている。
同時に、ドメイン固有の知識の欠如により、LLMの幻覚問題を軽減するために、特定のツールキットが構築される。
バニラ GPT-4o や他のエージェントと比較して,我々のアプローチは堅牢なマルチモーダル情報融合と分析を可能にし,都市公園開発監視の多様かつ進化する要求に合わせた信頼性とスケーラブルなソリューションを提供する。
関連論文リスト
- MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。
動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文 参考訳(メタデータ) (2025-12-15T17:29:02Z) - UrbanMind: Towards Urban General Intelligence via Tool-Enhanced Retrieval-Augmented Generation and Multilevel Optimization [7.478830207921698]
アーバン・ジェネラル・インテリジェンス(UGI)とは、ダイナミックで複雑な都市環境の中で自律的に知覚、理性、行動を行うAIシステムの能力を指す。
本稿では,UrbanMindについて紹介する。UrbanMindは,UGIを促進するためのツール強化検索拡張生成(RAG)フレームワークである。
論文 参考訳(メタデータ) (2025-07-07T06:57:34Z) - USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning of LLMs as Urban Agents [6.054990893127997]
大規模言語モデル (LLMs) は、様々な都市下流アプリケーションをサポートする都市エージェントを構築するための有望な候補となる、時間的非時間的可能性を示している。
結果レベル研究における都市エージェントの評価に関する既存の研究は、その根底にある推論過程について限定的な洞察を与える。
その結果、時間的推論における都市エージェントの強さと限界はいまだに理解されていない。
USTBenchは、LLMの時間的推論能力を4次元にわたる都市エージェントとして評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-23T07:30:57Z) - UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models [18.051209616917042]
UrbanMind は多面的都市動態予測のための空間時空間 LLM フレームワークである。
UrbanMindのコアとなるMuffin-MAEは、特殊なマスキング戦略を備えた多面式フュージョンマスク自動エンコーダである。
複数の都市にまたがる実世界の都市データセットの実験は、UrbanMindが一貫して最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-16T19:38:06Z) - A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。
このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文 参考訳(メタデータ) (2025-05-06T05:32:46Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。