論文の概要: PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.14481v2
- Date: Wed, 21 May 2025 05:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.365918
- Title: PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models
- Title(参考訳): PlanGPT-VL:ドメイン特化視覚言語モデルによる都市計画の強化
- Authors: He Zhu, Junyou Su, Minxin Chen, Wen Wang, Yijie Deng, Guanhua Chen, Wenjia Zhang,
- Abstract要約: そこで我々は,都市計画地図に特化して設計された,ドメイン固有の視覚言語モデルであるPlanGPT-VLを紹介した。
PlanGPT-VLは,(1)高品質なVQAデータ合成のためのPlanAnno-Vフレームワーク,(2)構造化検証による幻覚の低減のためのクリティカルポイント思考,(3)スーパーバイザードファインタニングと凍結視覚エンコーダパラメータを組み合わせた総合的なトレーニング手法,の3つの革新的アプローチを採用している。
- 参考スコア(独自算出の注目度): 10.56421857293621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of urban planning, existing Vision-Language Models (VLMs) frequently fail to effectively analyze and evaluate planning maps, despite the critical importance of these visual elements for urban planners and related educational contexts. Planning maps, which visualize land use, infrastructure layouts, and functional zoning, require specialized understanding of spatial configurations, regulatory requirements, and multi-scale analysis. To address this challenge, we introduce PlanGPT-VL, the first domain-specific Vision-Language Model tailored specifically for urban planning maps. PlanGPT-VL employs three innovative approaches: (1) PlanAnno-V framework for high-quality VQA data synthesis, (2) Critical Point Thinking to reduce hallucinations through structured verification, and (3) comprehensive training methodology combining Supervised Fine-Tuning with frozen vision encoder parameters. Through systematic evaluation on our proposed PlanBench-V benchmark, we demonstrate that PlanGPT-VL significantly outperforms general-purpose state-of-the-art VLMs in specialized planning map interpretation tasks, offering urban planning professionals a reliable tool for map analysis, assessment, and educational applications while maintaining high factual accuracy. Our lightweight 7B parameter model achieves comparable performance to models exceeding 72B parameters, demonstrating efficient domain specialization without sacrificing performance.
- Abstract(参考訳): 都市計画の分野では、既存のビジョン・ランゲージ・モデル(VLM)は都市計画図を効果的に分析・評価するのに失敗することが多い。
土地利用、インフラ配置、機能的分割を視覚化する計画地図は、空間構成、規制要件、マルチスケール分析の専門的な理解を必要とする。
この課題に対処するために,都市計画マップに特化して設計されたドメイン固有の視覚言語モデルであるPlanGPT-VLを紹介した。
PlanGPT-VLは,(1)高品質なVQAデータ合成のためのPlanAnno-Vフレームワーク,(2)構造化検証による幻覚の低減のためのクリティカルポイント思考,(3)スーパーバイザードファインタニングと凍結視覚エンコーダパラメータを組み合わせた総合的なトレーニング手法,の3つの革新的アプローチを採用している。
提案したPlanBench-Vベンチマークの体系的評価により,PlanGPT-VLは,具体的な計画地図解釈タスクにおいて汎用VLMを著しく上回り,都市計画の専門家に地図解析,評価,教育応用のための信頼性の高いツールを提供しながら,高い事実的精度を維持していることを示す。
我々の軽量 7B パラメータモデルは72B パラメータを超えるモデルに匹敵する性能を達成し、性能を犠牲にすることなく効率的なドメインの特殊化を実証する。
関連論文リスト
- Evaluating Vision-Language Models as Evaluators in Path Planning [13.391755396500155]
大規模言語モデル(LLM)は、エンド・ツー・エンド・プランニングにおいて限定的な有効性を持つことが示されている。
本稿では,複雑な経路計画シナリオにおける計画評価器としてVLMを評価する新しいベンチマークであるPathEvalを紹介する。
分析の結果,これらのモデルがベンチマークにおいて重大な課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-27T19:32:03Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following [17.608330952846075]
EIF(Embodied Instruction following)は、対話型環境でオブジェクトをナビゲートし、対話することによって自然言語命令を実行するタスクである。
EIFにおける重要な課題は、典型的には教師付き学習やラベル付きデータによる少数ショットのインコンテキスト学習を通じて対処される構成的タスク計画である。
本稿では,自己QAに基づくゼロショット計画手法であるソクラティック・プランナーを紹介する。
論文 参考訳(メタデータ) (2024-04-21T08:10:20Z) - PlanGPT: Enhancing Urban Planning with Tailored Language Model and
Efficient Retrieval [8.345858904808873]
汎用的な大規模言語モデルは、しばしばプランナーのニーズを満たすのに苦労する。
PlanGPTは、都市と空間計画に適した最初の大規模言語モデルである。
論文 参考訳(メタデータ) (2024-02-29T15:41:20Z) - PAS-SLAM: A Visual SLAM System for Planar Ambiguous Scenes [41.47703182059505]
平面不明瞭なシーンを対象とした平面的特徴に基づく視覚的SLAMシステムを提案する。
本稿では,平面パラメータ,意味情報,投影IoU,非パラメトリックテストを組み合わせた統合データアソシエーション戦略を提案する。
最後に、カメラポーズ最適化のための多重制約係数グラフのセットを設計する。
論文 参考訳(メタデータ) (2024-02-09T01:34:26Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Human-instructed Deep Hierarchical Generative Learning for Automated
Urban Planning [57.91323079939641]
我々は,最適な都市計画を生成するために,人間に指示された新しい深層階層生成モデルを構築した。
最初の段階は、機能ゾーンを発見するために、目標領域の格子に遅延関数をラベル付けすることである。
第2の段階は、都市機能投影を形成するための計画要件を理解することである。
第3の段階は、マルチアテンションを活用して、機能プロジェクションのゾーン・ゾーン・ピア依存関係をモデル化し、グリッドレベルの土地利用構成を生成することである。
論文 参考訳(メタデータ) (2022-12-01T23:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。