論文の概要: VectorLLM: Human-like Extraction of Structured Building Contours vis Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2507.04664v1
- Date: Mon, 07 Jul 2025 05:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.279826
- Title: VectorLLM: Human-like Extraction of Structured Building Contours vis Multimodal LLMs
- Title(参考訳): VectorLLM:Multimodal LLMにおける構造構造パターンの人為的抽出
- Authors: Tao Zhang, Shiqing Wei, Shihao Chen, Wenling Yu, Muying Luo, Shunping Ji,
- Abstract要約: 本稿では,リモートセンシング画像からパターン抽出を行うためのMLLM(Multi-modal Large Language Model)として,VectorLLMを紹介する。
私たちのアーキテクチャは、視覚基盤、コネクター、理解能力を向上させるための強化された位置埋め込みで構成されています。
ベクターLLMは航空機、水車、石油タンクなどの見えない物体に対して強いゼロショット性能を示す。
- 参考スコア(独自算出の注目度): 5.589842901102337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically extracting vectorized building contours from remote sensing imagery is crucial for urban planning, population estimation, and disaster assessment. Current state-of-the-art methods rely on complex multi-stage pipelines involving pixel segmentation, vectorization, and polygon refinement, which limits their scalability and real-world applicability. Inspired by the remarkable reasoning capabilities of Large Language Models (LLMs), we introduce VectorLLM, the first Multi-modal Large Language Model (MLLM) designed for regular building contour extraction from remote sensing images. Unlike existing approaches, VectorLLM performs corner-point by corner-point regression of building contours directly, mimicking human annotators' labeling process. Our architecture consists of a vision foundation backbone, an MLP connector, and an LLM, enhanced with learnable position embeddings to improve spatial understanding capability. Through comprehensive exploration of training strategies including pretraining, supervised fine-tuning, and preference optimization across WHU, WHU-Mix, and CrowdAI datasets, VectorLLM significantly outperformed the previous SOTA methods by 5.6 AP, 7.1 AP, 13.6 AP, respectively in the three datasets. Remarkably, VectorLLM exhibits strong zero-shot performance on unseen objects including aircraft, water bodies, and oil tanks, highlighting its potential for unified modeling of diverse remote sensing object contour extraction tasks. Overall, this work establishes a new paradigm for vector extraction in remote sensing, leveraging the topological reasoning capabilities of LLMs to achieve both high accuracy and exceptional generalization. All the codes and weights will be published for promoting community development.
- Abstract(参考訳): リモートセンシング画像からベクトル化された建物輪郭を自動的に抽出することは,都市計画,人口推定,災害評価に不可欠である。
現在の最先端の手法は、ピクセルセグメンテーション、ベクトル化、ポリゴン精製を含む複雑な多段階パイプラインに依存しており、そのスケーラビリティと実世界の応用性を制限する。
本稿では,Large Language Models (LLMs) の顕著な推論能力に触発されて,リモートセンシング画像からパターン抽出を行うために設計された,最初のマルチモーダル大規模言語モデル (MLLM) であるVectorLLMを紹介する。
既存のアプローチとは異なり、VectorLLMは、人間のアノテータのラベリングプロセスを模倣して、建築輪郭を直接コーナーポイントレグレッションすることでコーナーポイントを実行する。
我々のアーキテクチャは、視覚基盤のバックボーン、MLPコネクタ、LLMで構成されており、空間理解能力を向上させるために学習可能な位置埋め込みによって拡張されている。
事前トレーニング、教師付き微調整、WHU、WHU-Mix、CrowdAIデータセット間の優先最適化を含む総合的なトレーニング戦略の探索を通じて、VectorLLMは3つのデータセットでそれぞれ5.6 AP、7.1 AP、13.6 APのSOTA手法を著しく上回った。
注目すべきは、VectorLLMは航空機、水体、石油タンクなどの見えない物体に対して強力なゼロショット性能を示し、多様なリモートセンシングオブジェクトの輪郭抽出タスクを統一的にモデル化する可能性を強調している。
全体として、この研究はリモートセンシングにおけるベクトル抽出の新しいパラダイムを確立し、LLMのトポロジ的推論能力を活用して高精度かつ例外的な一般化を実現する。
すべてのコードと重みは、コミュニティ開発を促進するために発行される。
関連論文リスト
- LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。
LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。
従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文 参考訳(メタデータ) (2025-05-28T04:30:51Z) - From Flight to Insight: Semantic 3D Reconstruction for Aerial Inspection via Gaussian Splatting and Language-Guided Segmentation [3.0477617036157136]
高忠実度3D再構成は, インフラ監視, 構造評価, 環境調査などの航空検査業務において重要である。
従来のフォトグラム法は幾何学的モデリングを可能にするが、意味論的解釈性に欠け、自動検査の有効性を制限している。
ニューラルレンダリングと3Dガウススプラッティング(3DGS)の最近の進歩は、効率的でフォトリアリスティックな再構築を提供するが、同様にシーンレベルの理解が欠如している。
言語誘導型3DセグメンテーションのためにFeature-3DGSを拡張するUAVベースのパイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-23T02:35:46Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。
連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文 参考訳(メタデータ) (2024-11-26T09:31:28Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [39.54689489555342]
現在の視覚注入(VL)トラッキングフレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成される。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。