論文の概要: ArchGPT: Understanding the World's Architectures with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2509.20858v1
- Date: Thu, 25 Sep 2025 07:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.767641
- Title: ArchGPT: Understanding the World's Architectures with Large Multimodal Models
- Title(参考訳): ArchGPT: 大規模なマルチモーダルモデルで世界のアーキテクチャを理解する
- Authors: Yuze Wang, Luo Yang, Junyi Wang, Yue Qi,
- Abstract要約: 本稿では,マルチモーダルな視覚的質問応答(VQA)モデルであるArchGPTを提案する。
このパイプラインはArch-300Kというドメイン特化データセットを約315,000枚取得する。
- 参考スコア(独自算出の注目度): 6.504675786709239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Architecture embodies aesthetic, cultural, and historical values, standing as a tangible testament to human civilization. Researchers have long leveraged virtual reality (VR), mixed reality (MR), and augmented reality (AR) to enable immersive exploration and interpretation of architecture, enhancing accessibility, public understanding, and creative workflows around architecture in education, heritage preservation, and professional design practice. However, existing VR/MR/AR systems are often developed case-by-case, relying on hard-coded annotations and task-specific interactions that do not scale across diverse built environments. In this work, we present ArchGPT, a multimodal architectural visual question answering (VQA) model, together with a scalable data-construction pipeline for curating high-quality, architecture-specific VQA annotations. This pipeline yields Arch-300K, a domain-specialized dataset of approximately 315,000 image-question-answer triplets. Arch-300K is built via a multi-stage process: first, we curate architectural scenes from Wikimedia Commons and filter unconstrained tourist photo collections using a novel coarse-to-fine strategy that integrates 3D reconstruction and semantic segmentation to select occlusion-free, structurally consistent architectural images. To mitigate noise and inconsistency in raw textual metadata, we propose an LLM-guided text verification and knowledge-distillation pipeline to generate reliable, architecture-specific question-answer pairs. Using these curated images and refined metadata, we further synthesize formal analysis annotations-including detailed descriptions and aspect-guided conversations-to provide richer semantic variety while remaining faithful to the data. We perform supervised fine-tuning of an open-source multimodal backbone ,ShareGPT4V-7B, on Arch-300K, yielding ArchGPT.
- Abstract(参考訳): 建築は美的、文化的、歴史的価値を具現化し、人間の文明の具体的な証として立っている。
研究者たちは以前から、仮想現実(VR)、MR(Mixed Reality)、AR(AR)を活用して、アーキテクチャの没入的な探索と解釈を可能にし、アクセシビリティの向上、公開理解、教育におけるアーキテクチャに関する創造的なワークフロー、遺産保存、プロフェッショナルデザインプラクティスを実現してきた。
しかし、既存のVR/MR/ARシステムはケースバイケースで開発され、様々な構築環境にまたがらないハードコードアノテーションやタスク固有のインタラクションに依存している。
本稿では、高品質でアーキテクチャ固有のVQAアノテーションをキュレートするためのスケーラブルなデータ構築パイプラインとともに、マルチモーダルなアーキテクチャビジュアル質問応答(VQA)モデルであるArchGPTを提案する。
このパイプラインはArch-300Kというドメイン特化データセットを約315,000枚取得する。
Arch-300Kは多段階のプロセスで構築されている: まず、Wikimedia Commonsからアーキテクチャシーンをキュレートし、新しい粗い3D再構成とセマンティックセグメンテーションを統合して、オクルージョンのない、構造的に整合したアーキテクチャイメージを選択することによって、制約のない観光客の写真コレクションをフィルタリングする。
生のテキストメタデータにおけるノイズや不整合を緩和するため,LLM誘導によるテキスト検証と知識蒸留パイプラインを提案し,信頼性の高いアーキテクチャ固有の質問応答ペアを生成する。
これらのキュレートされた画像と洗練されたメタデータを用いて、さらに詳細な記述やアスペクト誘導会話を含む形式解析アノテーションを合成し、データに忠実なまま、よりリッチなセマンティックな多様性を提供する。
我々はArch-300K上でオープンソースのマルチモーダルバックボーンShareGPT4V-7Bの教師付き微調整を行い、ArchGPTを得る。
関連論文リスト
- Taking Language Embedded 3D Gaussian Splatting into the Wild [6.550474097747006]
制約のない写真コレクションからのオープン語彙シーン理解のための新しいフレームワークを提案する。
具体的には、まず同じ視点から複数の外観画像を描画し、次に複数出現するCLIP特徴を抽出する。
次に,言語特徴を効果的に圧縮し,学習し,融合させるための,過渡的不確実性を考慮したオートエンコーダ,多言語言語フィールド3DGS表現,および後アンサンブル戦略を提案する。
論文 参考訳(メタデータ) (2025-07-26T07:00:32Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - OpenFACADES: An Open Framework for Architectural Caption and Attribute Data Enrichment via Street View Imagery [4.33299613844962]
建築特性は空間データ基盤において重要な役割を担い、エネルギーシミュレーション、リスク評価、環境モデリングなどの応用を支援する。
近年の進歩により、リモートセンシングとストリートレベルの画像を用いた客観的建物属性の抽出とタグ付けが可能になった。
この研究は,クラウドソースデータを活用したオープンなフレームワークであるOpenFACADESを導入して,そのギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-04-01T08:20:13Z) - CULTURE3D: A Large-Scale and Diverse Dataset of Cultural Landmarks and Terrains for Gaussian-Based Scene Rendering [12.299096433876676]
現在の最先端の3D再構築モデルは、大規模な屋外シーンを構築する際の限界に直面している。
本稿では,41,006個のドローンによる高解像度空中画像からなる100億点の細粒度データセットを提案する。
既存のデータセットと比較すると、我々は非常に大きなスケールと詳細を提供しており、きめ細かい3Dアプリケーションに特化しています。
論文 参考訳(メタデータ) (2025-01-12T20:36:39Z) - Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for
Complex Visual Reasoning Tasks [4.093474663507322]
ブリッジアーキテクチャは、VQA、キャプション、画像検索といったタスクを解決するために、画像空間からテキスト空間へのプロジェクトである。
我々はNLVR2データセットの従来のブリッジアーキテクチャを拡張し、細粒度オブジェクト推論をファシリケートするためにオブジェクトレベル機能を追加する。
我々の分析では、ブリッジアーキテクチャにオブジェクトレベル機能を追加しても役に立ちませんし、NLVR2のような複雑な推論タスクにおいて、マルチモーダルデータでの事前トレーニングが良いパフォーマンスの鍵であることを示しています。
論文 参考訳(メタデータ) (2023-07-31T03:57:31Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。